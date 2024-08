La plainte, qui a été déposée ce lundi 19 août devant un tribunal fédéral de San Francisco, suit des accusations selon lesquelles Anthropic aurait utilisé illégalement des livres piratés pour entraîner sa série de chatbots, Claude AI.

Les auteurs, Andrea Bartz, Charles Graeber ou Kirk Wallace Johnson, allèguent que l'entreprise a construit une entreprise évaluée à plusieurs milliards de dollars en exploitant des centaines de milliers d'ouvrages protégés par le droit d'auteur.

Éthique Anthropic

Ils font ici référence à un ensemble de données ouvertes appelé The Pile, qui incluait le sous-ensemble Books3, une base de données contenant 37 Go de texte piraté. Anthropic a en effet confirmé début août l'utilisation de The Pile pour la formation de Claude.

Ironique pour l'entreprise basée à San Francisco, et fondée par d'anciens dirigeants d'OpenAI, qui se présente dans ce même article comme plus responsable que ses concurrents, et axé sur la sécurité de modèles d'IA générative. Pour les plaignants, les actions d'Anthropic « ont tourné en dérision ses nobles objectifs », en puisant dans des répertoires d'écrits piratés pour développer son produit.

Dans leur plainte, les auteurs précisent : « Il est évident qu'Anthropic a téléchargé et reproduit des copies de The Pile et de Books3, sachant que ces ensembles de données étaient constitués d'une masse de contenus protégés par des droits d'auteur et provenant de sites pirates comme Bibiliotik. »

Créée par le groupe de recherche à but non lucratif EleutherAI pour entraîner des modèles d'IA, Books3, toujours trouvable sur internet, comprend des œuvres de célèbres auteurs comme Stephen King et Zadie Smith.

EleutherAI avait en son temps utilisé The Pile, ainsi que d'autres sources, pour développer ses propres modèles d'IA, dont GPT-J, qui visait à concurrencer le GPT-3 d'OpenAI.

Shawn Presser, le créateur de Books3, avait défendu son initiative en affirmant que la création d'une telle base de données était « la seule façon de reproduire des modèles comme ChatGPT ». Et d'ajouter : « À moins que les auteurs ne souhaitent mettre ChatGPT hors ligne ou les poursuivre en justice, il est essentiel que nous puissions développer nos propres versions de ChatGPT, tout comme il était essentiel, dans les années 90, que chacun puisse créer son propre site web. »

La plainte contre Anthropic souligne par ailleurs que des sociétés telles qu'Anthropic et Apple ont formé leurs modèles d'IA en utilisant des milliers de sous-titres de vidéos YouTube, là-encore issus de The Pile. En plus de la plainte déposée par des auteurs de livres, l'entreprise est également confrontée à des poursuites de la part de grands éditeurs de musique. Ils l'accusent de reproduire les paroles de chansons protégées par le droit d'auteur, toujours à travers son modèle Claude.

« Il n'est pas exagéré de dire que le modèle d'Anthropic cherche à tirer profit du pillage de l'expression et de l'ingéniosité humaines derrière chacune de ces œuvres », affirment les auteurs qui portent plainte.

Ils demandent à présent la certification du recours collectif, des dommages-intérêts, ainsi qu'une interdiction future de l'utilisation de matériel protégé par des droits d'auteur par Anthropic. L'entreprise n'a pour le moment pas encore réagi à ces accusations.

OpenAI et Meta dans le même cas

Cette action en justice fait écho à d'autres poursuites récentes, toujours en lien avec l'utilisation de Books3, notamment celle intentée par un collectif d'auteurs, dont Sarah Silverman, contre Meta ou OpenAI.

L'entreprise portée par Microsoft a aussi été accusée d'avoir utilisé les bases de données Books2 et Books1, dont le contenu exact demeure inconnu. En mai dernier, OpenAI a révélé avoir détruit ses deux bases de données, après des mois de pression de l'Authors Guild, un collectif d'auteurs américains. Ces bases avaient servi à l'entraînement de ChatGPT-3, mais OpenAI assure qu'elles n'ont pas été utilisées pour les versions ultérieures comme ChatGPT-3.5 et 4.

Plus généralement, OpenAI et Microsoft font face à diverses actions en justice pour violation du droit d'auteur, impliquant des auteurs renommés comme John Grisham, Michael Chabon ou George R. R. Martin, mais aussi des médias comme le New York Times ou le Chicago Tribune.

Les accusés défendent leur pratique en invoquant la doctrine du « fair use » des lois américaines sur le droit d'auteur, qui autorise des utilisations restreintes de matériel protégé à des fins telles que l'enseignement, la recherche ou la transformation d'une œuvre en une création différente.

Crédits photo : Alex Diamond (CC BY-SA 2.0)