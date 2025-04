Meta, en développant son modèle d’intelligence artificielle Llama 3, a pris une décision douteuse : utiliser la base de données piratée Library Genesis (LibGen) pour entraîner son IA. Des échanges internes, rendus publics dans le cadre d’un procès pour violation du droit d’auteur, révèlent que l’équipe de Llama jugeait « vraiment important […] d’obtenir des livres au plus vite ». De fait, « les livres représentent en réalité un apport plus significatif que les données issues du web », estimaient les ingénieurs.

Quand Mark Zuckerberg valide le piratage

Exploiter les ouvrages via des licences légales fut envisagé, mais les propositions des éditeurs étaient jugées « déraisonnablement coûteuses » et leur mise en place « incroyablement lentes ». Un directeur technique soulignait aussi une limite stratégique : « Si on place un seul livre sous licence, s’appuyer sur la stratégie du fair use sera rendu caduc. »

Pour contourner ces obstacles, Meta aurait reçu l’accord d'un certain “MZ” — les initiales Mark Zuckerberg — autorisant à taper dans la base de fichiers de LibGen : plus de 7,5 millions de livres et 81 millions d’articles scientifiques. L’équipe aurait téléchargé ces fichiers via BitTorrent, risquant de les partager en retour, une action illégale selon le droit américain. « Télécharger via torrent depuis un ordinateur d’entreprise ne semble pas génial », admettait un salarié.

Certains employés évoquaient un « risque juridique moyen-élevé », suggérant même des dispositifs pour masquer l’usage de LibGen : « Supprimer les données clairement marquées comme piratées » ou encore « ne pas citer publiquement l’utilisation de LibGen ».

Une corne d'abondance pour IA

Meta, tout comme OpenAI, avance que cette pratique relève du « fair use », car leurs modèles transformeraient les contenus initiaux : pas de reproduction ni de communication au public. Si la question reste en suspens, aucun porte-parole de Meta ne s'est aventuré à commenter l’affaire. OpenAI, de son côté, l'affirme sans frémir : aucune donnée de LibGen n'a servi pour ses modèles de langage actuels.

LibGen (Library Genesis), créé en 2008, a été conçu pour « les gens d’Afrique, d’Inde, du Pakistan, d’Iran, d’Irak, de Chine, de Russie et de l’ex-URSS », ainsi que pour « ceux qui n’appartiennent pas au monde universitaire ». Depuis, la base s’est étendue à des millions de documents, incluant des ouvrages de Sally Rooney, Percival Everett, ou encore des articles de Nature, Science et The Lancet.

Trancher la tête de l'hydre...

Et cet outil est bien connu des professionnels de l’édition puisque, depuis plusieurs années, il fait l’objet d’actions en justice et de mesures de blocage coordonnées par les éditeurs. En septembre 2023, une plainte a été déposée aux États-Unis par plusieurs maisons spécialisées dans l’édition scolaire – pour 30 millions $ de dommages-intérêts.

Au Royaume-Uni, une ordonnance de blocage élargie visant LibGen et d’autres sites similaires a été obtenue en novembre 2024, à l’initiative de la Publishers Association et de plusieurs éditeurs. L’organisation a également apporté son concours à des enquêtes judiciaires en transmettant des analyses techniques sur le fonctionnement de LibGen. Idem en France à l'initiative du Syndicat national de l'édition, en 2019.

Ce recours massif aux œuvres piratées, au cœur d’une bataille judiciaire majeure, soulève une interrogation centrale : comment encadrer l’usage des savoirs et créations littéraires à l’ère des IA génératives, sans déposséder leurs auteurs ? La naïade et Amalthée et sa chèvre qui nourrissaient Zeus enfant, offrent alors une image aisément détournable.

La perfide Albion perd son flegme

Pour les éditeurs britanniques, l’utilisation non autorisée d’œuvres protégées – qu’elles proviennent de LibGen, du jeu de données Books3 ou d’autres sources illicites – représente une atteinte grave aux droits d’auteur. Cette exploitation touche directement le fruit d’années d’efforts créatifs, humains et financiers fournis par les écrivains, chercheurs, universitaires et maisons d’édition. Et elle continue de causer un préjudice important à l’ensemble de la chaîne du livre.

La confirmation, par Meta, de l’utilisation de LibGen, mais aussi de Sci-Hub et Z-Library, pour entraîner ses modèles d’IA, renforce les inquiétudes de la profession. L’outil mis en ligne par The Atlantic montre aux auteurs comme aux éditeurs l’ampleur de l’utilisation non autorisée de leurs œuvres dans le développement des technologies d’intelligence artificielle générative.

Un contexte juridique préoccupant

La collecte, l’utilisation ou le stockage d’œuvres protégées à des fins de développement de modèles commerciaux d’IA, sans autorisation explicite des ayants droit, constitue une infraction au copyright britannique. Cette violation peut également s’appliquer aux contenus générés par ces modèles.

La Publishers Association rappelle que ses membres n’autorisent pas — sauf accords de licence préalablement négociés — l’exploitation de leurs œuvres protégées pour entraîner ou faire fonctionner des modèles d’intelligence artificielle. Et ce, qu’il s’agisse de grands modèles de langage ou d’autres outils génératifs. L’organisation a d’ores et déjà écrit à Meta, ainsi qu’à une cinquantaine d’autres entreprises du secteur, pour leur signifier cette interdiction.

Transparence et régulation

La PA et ses homologues internationaux, en appellent aux gouvernements, exigeant davantage de transparence sur l’utilisation d’œuvres protégées par les développeurs d’IA. L’enjeu : garantir que les bénéfices potentiels de l’intelligence artificielle se réalisent de manière équitable, éthique et durable, dans le respect des droits des créateurs.

L’éventualité de nouvelles procédures judiciaires ou de sanctions à l’encontre des entreprises ayant eu recours à des bases piratées n’est pas écartée.

L'ère du soupçon confirmé

Dans un communiqué, Catriona MacLeod Stevenson, directrice juridique et directrice générale adjointe de la PA, déclare : « Nous avons longtemps suspecté que des sites pirates illégaux aient servi à entraîner les LLM. Les documents judiciaires relayés par The Atlantic montrent que des employés de Meta ont été activement encouragés à télécharger et utiliser » les documents mis à disposition.

Elle poursuit : « Il s’agit là d’une atteinte massive au droit d’auteur des auteurs et des éditeurs, et cela ne doit pas rester sans réponse. La Publishers Association et ses membres examinent actuellement les actions à entreprendre. »

Et de conclure : « Les éditeurs — comme d’autres secteurs culturels — l’ont déjà dit : les grandes entreprises technologiques ont les moyens de payer pour les contenus qu’elles utilisent, et elles devraient le faire. Il existe un moyen simple d’accéder aux contenus de qualité que les développeurs souhaitent utiliser pour entraîner leurs IA : les rémunérer, comme ils paient l’électricité nécessaire à leur fonctionnement. »

Alors que le gouvernement britannique examine actuellement des milliers de réponses à sa consultation publique sur le droit d’auteur et l’intelligence artificielle, l’heure est venue, selon elle, de fixer un cap clair : « Des entreprises comme Meta doivent faire preuve de transparence sur les œuvres protégées qu’elles ont utilisées et souhaitent utiliser, et engager des discussions de bonne foi sur les licences, afin que les ayants droit soient rémunérés pour leur travail. »

Et pendant ce temps, en France...

L’histoire rappelle bien entendu l’assignation déposée conjointement par le Syndicat national de l’édition, la Société des gens de lettres et le Syndicat national des auteurs et compositeurs contre… Meta. Les plaignants ont attaqué, devant la 3e chambre du tribunal judiciaire de Paris, pour utilisation massive d’œuvres littéraires protégées par le droit d’auteur, sans le consentement de leurs auteurs et éditeurs, afin d’entraîner son modèle d’IA générative.

L’action en justice porte tout à la fois sur la violation du droit d’auteur et le parasitisme économique. Les trois structures défendent ainsi des principes fondamentaux, estimant que le développement d’un marché de l’IA ne peut se faire au détriment du secteur culturel. À ce titre, ils réclament le respect du droit d’auteur et le retrait complet des données créées sans autorisation et utilisées pour former les modèles d’IA.

On s’interroge tout de même fort : que Meta se soit servir d’œuvres piratées, car librement mises à disposition sur la Toile, par le biais de services de téléchargement, est-il réellement sanctionnable – les mêmes causes, outre-Atlantique, entraînant les mêmes conséquences dans l'Hexagone ? Une nuance qui n'aurait pas échappé aux parties en présence, et certainement pas aux avocats de Marc Z. D'autant que d'autres interrogations, tout aussi compromettantes pour l'action se posent...

