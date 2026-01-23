Une partie des débats juridiques autour des modèles de langage porte sur une question très concrète : un système entraîné sur d’immenses corpus peut-il « recracher » des œuvres protégées, et dans quelle mesure ces textes sont-ils encodés dans ses poids au cours de l’entraînement ? Autrement dit, les modèles mémorisent-ils, et peut-on extraire cette mémorisation sous forme de passages (quasi) verbatim dans les réponses ?

Dans un article intitulé Extracting books from production language models, Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo et Percy Liang, chercheurs de Stanford et Yale University, étudient cette question sur des modèles dits « de production », c’est-à-dire des IA commerciales déployées avec des-garde fous destinés notamment à limiter la reproduction de textes protégés. Leur objectif n’est pas de trancher le débat de fond sur le droit d’auteur, mais d’apporter des éléments techniques sur le risque de « fuite » de contenus présents dans les données d’entraînement, y compris des livres protégés par le droit d'auteur.

Quatre modèles testés

Les auteurs indiquent avoir mené leurs expériences de mi août à mi septembre 2025, sur quatre systèmes : Claude 3.7 Sonnet, développé par Anthropic, GPT-4.1 par OpenAI (Microsoft), Gemini 2.5 Pro par Google via DeepMind, et Grok 3 par xAI, l’entreprise fondée par Elon Musk.

Ils précisent avoir notifié les fournisseurs concernés le 9 septembre 2025, puis appliqué une fenêtre de divulgation de 90 jours avant publication. Cette chronologie est importante, car les systèmes de production évoluent, et les résultats décrits correspondent à une période précise et à des versions d’API explicitement mentionnées dans le texte.

Le protocole repose sur une procédure en deux phases. Dans la première, les chercheurs testent la faisabilité de l’extraction en fournissant au modèle une courte amorce issue du début d’un livre, souvent la première phrase, accompagnée d’une consigne de continuation fidèle.

Ils évaluent ensuite la réponse à l’aide d’une mesure fondée sur la plus longue séquence contiguë identique avec le texte de référence. La phase est jugée concluante lorsque le score normalisé atteint 0,6, ce qui signifie qu’au moins 60 % de la portion cible est reproduite de manière contiguë.

Contourner les garde fous

Les auteurs indiquent que, dans leurs expériences, Gemini 2.5 Pro et Grok 3 ont répondu sans qu’il soit nécessaire de contourner les mécanismes de refus, tandis que Claude 3.7 Sonnet et GPT 4.1 ont exigé, pour ce premier franchissement, une technique de contournement qu’ils nomment Best of N. L’idée générale, telle qu’ils la décrivent, consiste à produire de nombreuses variantes d’une même consigne et à sélectionner la réponse qui contourne les garde-fous mis en place, selon un critère de réussite défini par le protocole.

Le texte insiste sur le fait qu’il s’agit d’une approche « blackbox », sans accès aux probabilités internes du modèle, adaptée aux contraintes des API commerciales.

La seconde phase commence seulement si la première a réussi. Elle consiste à demander la suite du texte de manière itérative, en enchaînant des requêtes de continuation. La boucle s’arrête quand le système refuse, renvoie une formule de fin, ou lorsque le nombre maximum de fois où les chercheurs interrogent l’IA au cours d’un test, selon une limite fixée à l’avance, est atteinte.

Mesurer l’extraction sans exiger une copie parfaite

Comparer un texte produit par une IA à un livre entier pose rapidement des difficultés. Une reproduction très fidèle peut être brouillée par de légères différences, des phrases ajoutées ou des passages répétés. Pour tenir compte de ces écarts, les chercheurs ont mis au point un indicateur qu’ils appellent near verbatim recall, ou nv recall.

Concrètement, cette mesure repère d’abord des segments de mots strictement identiques entre le livre de référence et le texte généré. Des segments très proches, séparés par de petites coupures, peuvent ensuite être regroupés. À l’inverse, les passages trop courts sont écartés.

L’approche se veut volontairement prudente. Seuls les segments atteignant au moins 100 mots consécutifs sont retenus comme preuve d’une extraction. Le nv recall correspond alors à la part du livre, en nombre de mots, retrouvée dans ces passages fidèlement reproduits et respectant l’ordre du texte original. Les auteurs soulignent enfin que cette méthode peut minimiser certains cas, par exemple lorsque des extraits apparaissent dans le désordre ou lorsque des répétitions augmentent artificiellement la longueur du texte généré sans correspondre exactement au livre.

Le cas Harry Potter

Ils donnent un exemple détaillé, appuyé sur le célèbre Harry Potter à l’école des sorciers, de J. K. Rowling. Avec Claude 3.7 Sonnet, ils parviennent à retrouver 95,8 % du livre analysé sous une forme quasi identique, après 258 tentatives destinées à contourner les garde-fous du modèle lors de la première phase.

Pour GPT-4.1, l’opération s’avère beaucoup plus difficile. Elle nécessite 5.179 tentatives comparables et se heurte finalement à un refus du modèle après la fin du premier chapitre. Le taux de reproduction fidèle atteint alors seulement 4,0 % du livre.

À l’inverse, pour Gemini 2.5 Pro et Grok 3, les chercheurs indiquent ne pas avoir eu besoin de contournement lors de la première phase. Dans ce même test, ils obtiennent néanmoins des niveaux élevés de reproduction, avec 76,8 % du texte retrouvé pour Gemini 2.5 Pro et 70,3 % pour Grok 3.

Un corpus plus large

Les auteurs ont tenté l’extraction de treize livres, dont onze considérés comme couverts par le copyright aux États Unis et deux du domaine public, Frankenstein ou le Prométhée moderne (Shelley, 1818) et Gatsby le Magnifique (Fitzgerald, 1925). Les titres listés incluent aussi Harry Potter et la Coupe de feu, 1984, Le Hobbit, L’Attrape-cœurs, Le Trône de fer, Beloved, Da Vinci Code, Hunger Games et Catch-22, ainsi que The Duchess War de Courtney Milan, cité sous son titre anglais.

Ils indiquent avoir obtenu les textes de référence via le corpus Books3, diffusé en 2020, et précisent disposer de ce corpus « pour la recherche ».

Pour Claude 3.7 Sonnet, les auteurs affirment avoir extrait quatre livres presque en entier, avec une nv recall d’au moins 94 %, dont deux sous copyright aux États Unis, Harry Potter à l’école des sorciers et 1984, et deux du domaine public, Gatsby le Magnifique et Frankenstein ou le Prométhée moderne. À l’inverse, ils décrivent GPT 4.1 comme plus fréquemment limité par des refus lors de la phase 2 dans leur procédure principale, ce qui borne l’extraction à une partie du début, même quand la phase 1 a été franchie.

Des procès en série

Rappelons qu'Anthropic, l’entreprise qui développe Claude 3.7 Sonnet, a été au centre d’un important litige juridique autour de l’entraînement de ses modèles d’IA sur des œuvres protégées par le droit d’auteur.

En 2024, un groupe d’auteurs a intenté une action collective en justice en Californie, l’accusant d’avoir utilisé des copies piratées de leurs livres pour entraîner ses modèles sans autorisation ni paiement ; la justice a reconnu que l’utilisation de certains livres pouvait relever d’un « fair use » mais a aussi estimé qu’Anthropic avait stocké et utilisé des millions de livres piratés, notamment de Books3, LibGen (Library Genesis) ou Pirate Library Mirror, ce qui n’était pas couvert par cette exception.

Des documents judiciaires et rapports indiquent que plus de 7 millions d’ouvrages piratés avaient été téléchargés par Anthropic depuis ces « shadow libraries » pour constituer une bibliothèque interne de textes. Pour éviter un procès potentiellement très coûteux sur ce volet précis des accusations, Anthropic a accepté en septembre 2025 un règlement d’environ 1,5 milliard de dollars avec les auteurs concernés, qui prévoit notamment des compensations autour de 3000 $ par ouvrage couverts par le litige.

Gaël Faye, Guillaume Musso, Amélie Nothomb, Albert Camus ou encore Joël Dicker figurent parmi les auteurs dont les œuvres sont citées dans les procédures visant Anthropic. Dans le même temps, les plaintes se multiplient contre OpenAI, Meta, Microsoft, Apple ou Adobe, toutes soupçonnées d’avoir entraîné leurs modèles sur des corpus protégés. En France, éditeurs et auteurs français, menés par le Syndicat national de l’édition, la Société des Gens de Lettres et le Syndicat National des Auteurs et des Compositeurs, ont assigné Meta en justice pour contrefaçon et parasitisme économique.

La série Claude 3.7 Sonnet n’est déjà plus accessible dans l’interface publique de Claude. Elle a été remplacée par des versions plus récentes, notamment les modèles de Claude 4, tels que Claude Sonnet 4, Claude Opus 4, et Claude Opus 4.5.

Un enjeu central pour 2026

Pourquoi ces observations pèsent dans le débat sur la « fuite » de données d’entraînement ? Les auteurs de l'étude affirment que les modèles étudiés mémorisent au moins une partie des livres testés et que, dans certaines conditions, il est possible d’extraire de larges portions de textes couverts par le droit d'auteur sous forme quasi verbatim, malgré des garde fous de système et d’alignement. Ils soulignent aussi qu’une extraction réussie implique, par définition, que le texte soit présent dans les données d’entraînement, puisque l’extraction est présentée comme un symptôme de mémorisation.

Ils notent enfin que leurs générations contiennent aussi du texte « additionnel » qui n’est pas comptabilisé comme extraction au sens strict de leur métrique, et qu’une inspection qualitative leur laisse penser que cette partie non comptée peut reprendre des éléments d’intrigue, de thèmes ou de personnages, sans toutefois en faire une mesure systématique ni des conclusions juridiques.

Leur conclusion : il a été possible d’extraire de grandes quantités de texte sous copyright à partir de quatre modèles de production, avec des résultats variables selon les systèmes et les réglages. Claude 3.7 Sonnet se distingue par des extractions très étendues après contournement, GPT-4.1 par des blocages tardifs mais efficaces, Gemini 2.5 Pro et Grok 3 par une permissivité initiale conduisant à des extractions importantes mais plus fragmentées.

L'article réaffirme que ces constats ne suffisent pas à comparer les modèles entre eux, ni à conclure sur l’ampleur globale de la mémorisation, mais qu’ils mettent en évidence une difficulté persistante : empêcher de façon robuste la sortie de contenus protégés.

