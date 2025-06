Tout est parti d’un constat embarrassant, rapporte New Scientist. Des chercheurs ont testé treize modèles d’intelligence artificielle, parmi lesquels ceux de Meta, OpenAI, Google, DeepSeek, EleutherAI et Microsoft. Objectif : vérifier jusqu’à quel point ces systèmes, entraînés à partir de millions de documents, sont capables de régurgiter du texte issu des livres qu’ils ont ingérés. Les résultats sont sans appel.

Y'a qu'à se servir

Si la plupart des modèles restituent très peu d’extraits exacts, le modèle LLaMA 3.1 de Meta, lui, récite presque intégralement certains ouvrages. Des classiques comme Harry Potter à l’école des sorciers, Gatsby le Magnifique ou 1984 d’Orwell.

« Cela signifie que les IA ne se contentent pas de repérer des structures linguistiques générales. Elles retiennent bien plus que des relations entre les mots », observe Mark Lemley, professeur de droit à Stanford et spécialiste des questions technologiques. Avant de souligner que la capacité de mémorisation varie selon les modèles et les ouvrages, rendant toute tentative d’instaurer une règle juridique universelle particulièrement complexe.

Le sujet agite déjà les prétoires depuis des mois. Aux États-Unis, des écrivains comme Sarah Silverman ont attaqué Meta en justice. Leur plainte accuse l’entreprise d’avoir utilisé leurs œuvres sans autorisation pour entraîner ses modèles d’IA. L’affaire, baptisée Kadrey v. Meta Platforms, se déroule actuellement devant la cour fédérale du nord de la Californie.

Les révélations des chercheurs tombent au plus mal pour le groupe de Mark Zuckerberg. L’équipe de Lemley a démontré que Meta avait entraîné ses IA sur la base de données baptisée « Books3 », qui rassemble près de 200.000 livres, dont de nombreux piratés. Un détail glané dans les échanges internes des ingénieurs de l’entreprise vient enfoncer le clou : « Télécharger un torrent depuis un ordinateur professionnel Meta… ça ne semble pas très légal », s’inquiète l’un d’eux dans des messages produits devant le tribunal.

Pas le con d'être aussi droit

La question n’est pas de savoir si des contenus protégés ont servi à l’entraînement. Les entreprises reconnaissent assez volontiers cette pratique. Ce qui fait débat, c’est leur droit à le faire. Aux États-Unis, la défense s’appuie sur le principe du « fair use », censé autoriser, sous certaines conditions, l’utilisation non autorisée de contenus protégés.

Pour Meta, cette exception est vitale. « L’utilisation équitable des œuvres protégées est essentielle au développement de nos modèles », insiste Emil Vazquez, porte-parole du groupe.

Outre-Manche, l’argument convainc beaucoup moins. Robert Lands, avocat du cabinet Howard Kennedy à Londres, rappelle que le Royaume-Uni applique le concept de « fair dealing », nettement plus strict que son cousin américain. Une IA ayant mémorisé des livres piratés aurait donc bien du mal à échapper à la qualification de contrefaçon.

Les enjeux financiers sont considérables. Si seulement 3 % du dataset Books3 sont jugés contrefaisants, les dommages et intérêts pourraient atteindre un milliard de dollars. Et la facture grimperait encore si l’on prend en compte les profits liés à l’exploitation des IA.

Méthode implacable

Pour détecter ces mémorisations problématiques, les chercheurs ont mis au point une méthode ingénieuse. Ils découpent un extrait d’ouvrage en deux parties : un début, dit préfixe, et une fin, dite suffixe. L’IA reçoit le début et doit compléter la suite. Plus elle fournit le texte exact, plus elle révèle sa capacité à mémoriser l’œuvre.

Un extrait de Gatsby le Magnifique a ainsi servi de test : « Ils étaient des gens négligents, Tom et Daisy – ils détruisaient des choses et des créatures, puis s’enfuyaient… », l’IA de Meta a parfaitement restitué la suite : « …dans leur argent ou leur immense insouciance, ou quoi que ce soit qui les maintenait ensemble, laissant les autres nettoyer le désordre qu’ils avaient causé. »

Mark Lemley, figure influente du droit technologique, se trouve aujourd’hui dans une position inconfortable. Défenseur de Meta dans le passé, il a annoncé en janvier avoir renoncé à représenter l’entreprise, critiquant ouvertement l’attitude du groupe et de son PDG Mark Zuckerberg. Il n’en reste pas moins qu’il considère toujours les IA comme un formidable terrain d’innovation. Mais cette fois, la ligne rouge semble franchie.

Chez Meta, silence radio sur ces nouvelles révélations. Les autres acteurs testés, à l’exception de Microsoft, n’ont pas davantage souhaité réagir.

Dans le sillage de ces polémiques, le débat prend de l’ampleur. Les IA sont-elles de simples machines à plagier ou des outils capables de transformer la matière textuelle pour en produire de nouvelles ?

La réponse pourrait remodeler l’équilibre fragile entre technologie et création littéraire. Pour les auteurs et éditeurs, l’enjeu dépasse de loin le simple respect des droits d’auteur. Il touche à la survie même du livre face à la voracité algorithmique.

