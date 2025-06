Pour rappel, le fair use désigne une exception du droit américain qui autorise, sous certaines conditions, l'utilisation d'œuvres protégées sans consentement préalable, notamment à des fins d'enseignement, de recherche ou d'innovation technologique. Elle est basée sur la section 107 du Copyright Act américain de 1976.

Cette décision inédite va ainsi dans le sens des intérêts de l’industrie de l’IA, mais avec des limites très précises. Elle concerne uniquement les ouvrages physiques qu'Anthropic a acquis légalement, puis numérisés après avoir retiré leur reliure et découpé les pages, afin de les intégrer dans une bibliothèque numérique destinée à entraîner ses modèles de langage Claude.

Le procès civil toujours en cours

Le juge Alsup précise ainsi que le simple fait de numériser un livre acheté légalement constitue un usage loyal, tout comme le recours à ces copies numériques pour entraîner un modèle d’IA, dès lors que l’usage est jugé suffisamment transformateur. « Les plaintes des auteurs ne diffèrent en rien de celles que l’on entendrait s’ils se plaignaient qu’apprendre à des écoliers à bien écrire entraînerait une explosion d’œuvres concurrentes », écrit-il dans sa décision, rappelant que le Copyright Act vise à encourager la création d’œuvres originales, non à protéger les auteurs contre la concurrence.

Le Copyright Office américain n'a pas encore publié la troisième partie de son rapport sur le droit d’auteur et l’intelligence artificielle, attendue, car elle concernera justement l’entraînement des IA sur des œuvres protégées...

Comme d’autres entreprises d’IA visées par des plaintes similaires dans le monde de la musique, de la presse ou de l’édition, Anthropic a défendu sa position en invoquant le caractère transformateur de l’usage et son utilité pour « l’innovation ». « Le juge a reconnu qu'utiliser des travaux pour entraîner les grands modèles était source d'innovation », a commenté un porte-parole d’Anthropic, repris par l'AFP, ajoutant que cette position « est cohérente avec l'objectif de la législation sur les droits d'auteur de permettre la créativité et de favoriser le progrès scientifique ».

Dans la plainte déposée par les trois auteurs le 19 août dernier, le groupe est accusé d’avoir bâti, sans autorisation, une société désormais valorisée à plusieurs milliards de dollars en exploitant massivement des œuvres protégées par le droit d’auteur, mais aussi d’avoir exploité illégalement des livres piratés pour entraîner ses systèmes d’IA.

C'est pourquoi, si un premier volet du dossier a tourné en faveur de l'entreprise, elle n’en a pas fini avec la justice. Une autre partie du contentieux, concernant l’utilisation présumée de « millions » de copies piratées de livres récupérées sur internet, reste à trancher. Le cœur des accusations des auteurs plaignants vise en effet l’usage d’un ensemble de données bien connu dans le milieu, baptisé The Pile, et plus précisément de son sous-ensemble Books3, une base contenant à elle seule 37 gigaoctets de textes issus d’ouvrages piratés.

À LIRE - Piratage de livres : pourquoi Meta risque une douloureuse à plusieurs milliards

L’entreprise de San Francisco, fondée en 2021 par d’anciens cadres d’OpenAI, a confirmé début août 2024 avoir utilisé The Pile pour entraîner Claude, son IA générative. Une révélation qui tombait mal pour Anthropic, connue pour se présenter publiquement comme un acteur « plus responsable » que ses concurrents et attaché à la sécurité des systèmes d’IA. Ainsi, pour les plaignants, cette posture serait contredite par les faits : « Les actions d'Anthropic ont tourné en dérision ses nobles objectifs », écrivent-ils, pointant l'utilisation de contenus piratés pour faire progresser son modèle.

Books3 a été conçu par le collectif de recherche à but non lucratif EleutherAI. Cette base regroupe notamment des textes d’écrivains célèbres, comme Stephen King ou Zadie Smith, et avait déjà été utilisée pour entraîner GPT-J, un modèle d’IA pensé pour concurrencer GPT-3, la technologie d’OpenAI. À l’époque, Shawn Presser, le créateur de Books3, avait justifié l’existence d’une telle base en ces termes : « La seule façon de reproduire des modèles comme ChatGPT », estimant indispensable de disposer de ressources équivalentes pour « développer nos propres versions de ChatGPT, tout comme il était essentiel, dans les années 90, que chacun puisse créer son propre site web ».

Anthropic a par ailleurs procédé au téléchargement, en 2021, d'au moins cinq millions d'exemplaires de livres depuis Library Genesis, aussi appelé LibGen, en toute connaissance de cause quant à l'origine illicite de ces fichiers, met en évidence la décision du tribunal. Puis, en juillet 2022, Anthropic a répété l'opération en récupérant au moins deux millions de copies de livres supplémentaires depuis le Pirate Library Mirror, ou PiLiMi, sachant là encore qu'il s'agissait de contenus piratés.

Selon les documents judiciaires, l’entreprise aurait combiné l’achat légal de livres, leur numérisation, et le téléchargement massif de copies illégales, dans le but d’assembler une base de données regroupant « tous les livres du monde » pour l’entraînement de ses IA.

Sur ce point, le juge s’est montré très clair : l’usage de ces copies illégales ne relève pas du fair use. « Cette décision doute fortement qu’un contrefacteur présumé puisse jamais démontrer en quoi télécharger des copies issues de sites pirates, alors qu’il aurait pu les acheter ou y accéder légalement, était raisonnablement nécessaire à un quelconque usage ultérieur relevant du fair use », précise-t-il, en soulignant l'importance de cette distinction.

Et ainsi d'être formel : il s’agit d’une « violation des droits d’auteur, quel que soit l'objectif poursuivi ». La procédure civile suit désormais son cours, et une décision est attendue pour déterminer si Anthropic devra verser des dommages et intérêts.

Du côté d'Anthropic, la satisfaction est malgré tout de mise. Dans un communiqué transmis à The Verge, sa porte-parole Jennifer Martinez souligne : « Nous sommes heureux que le tribunal ait reconnu que l'utilisation d'œuvres pour entraîner des modèles de langage était transformative - et de façon spectaculaire. » Et d’ajouter, citant la décision du juge : « Conformément à l’objectif du droit d’auteur, qui est de favoriser la créativité et le progrès scientifique, les modèles d'Anthropic entraînés sur ces œuvres ne cherchent pas à les imiter ni à les supplanter, mais bien à prendre un virage radical pour créer quelque chose de différent. »

Cette décision partielle marque un précédent important dans les litiges opposant auteurs et développeurs d’IA, et pourrait influencer d’autres affaires en cours sur le territoire américain. Cette affaire s'inscrit en effet dans la dizaine de procès, tous médiatisés, intentés contre les géants de l'IA.

Anthropic, soutenu par Amazon, est aujourd’hui valorisé à plus de 61,5 milliards de dollars.

