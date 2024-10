La déjà longue série des procès intentés contre les concepteurs de grand modèle linguistique s'étend encore. Aux États-Unis, les sociétés OpenAI/Microsoft et Meta sont sujettes, depuis plusieurs mois, à des procédures qui pointent un usage abusif d'ouvrages couverts par le copyright.

À chaque fois, les plaignants, des auteurs, voire des sociétés d'auteurs, accusent les sociétés d'avoir exploité leur travail, sans leur autorisation et sans leur consentement, et parfois même de créer une concurrence déloyale à leurs propres ouvrages, en reproduisant des contenus et en apportant leurs informations aux internautes.

Une class action

Romancier et scénariste, Christopher Farnsworth a signé une dizaine d'ouvrages, dont une série mettant en scène un président des États-Unis vampire (ses livres ne sont pas disponibles en français). Il a confié sa plainte au cabinet d'avocats Lieff Cabraser Heimann & Bernstein, spécialisé dans les class actions, précise Reuters. Ces dernières, des actions collectives, permettent à des personnes s'estimant elles aussi lésées par le défendeur de se joindre à la procédure, afin d'obtenir une indemnisation en cas de victoire.

D'autres auteurs, ou même des graphistes ou illustrateurs, pourraient ainsi rejoindre Farnsworth dans sa quête judiciaire pour obtenir réparation. En effet, les grands modèles linguistiques, pour « apprendre » et « s'améliorer », sont exposés à de larges quantités de textes, d'images, ou de vidéo, selon les contenus qu'ils sont ensuite amenés à générer.

Ces « lectures » leur permettent alors de construire des réponses intelligibles, d'une part, mais aussi de comprendre avec finesse les requêtes données par les utilisateurs. Problème : si l'apprentissage peut s'effectuer sur des contenus libres de droits, relevant du domaine public, l'accès à des textes plus contemporains semble indispensable, afin d'améliorer la pertinence des réponses. Or, ceux-ci sont couverts par le copyright...

Plusieurs class actions sont déjà en cours auprès de tribunaux américains, notamment celles de Michael Chabon, Ta-Nehisi Coates ou encore Sarah Silverman, d'une part, et de G.R.R. Martin, Jodi Picoult, John Grisham et l'Authors Guild, d'autre part. Pour l'instant, aucune n'a abouti et elles finiraient même par se gêner l'une l'autre, permettant aux défendeurs — OpenAI et Meta — de jouer sur plusieurs tableaux...

Copyright et fair use

La ligne de défense des développeurs de grands modèles linguistiques tient, pour l'instant, et se concentre sur deux arguments principaux. Le premier s'appuie sur le fair use, une doctrine des lois sur le copyright qui autorise certains contournements, dans des conditions bien précises, qui sont strictement contrôlées par les tribunaux.

Les œuvres peuvent ainsi être exploitées sans l'accord des ayants droit, mais uniquement à des fins pédagogiques ou de recherche, avec une notion importante d'intérêt général. La notion reste toutefois à manipuler avec prudence : récemment, Internet Archive, qui a tenté de s'en servir pour justifier la constitution de sa « bibliothèque d'Internet », s'est cassé les dents.

La firme NVIDIA, attaquée pour l'utilisation du jeu de données Books3, extraites d'une bibliothèque pirate, a maintenu cette version des faits, en août dernier, devant un tribunal californien. Et assuré au passage que sa technologie d'intelligence artificielle ne s'intéressait qu'aux idées et aux faits, pas à leur formulation...

L'autre argument des sociétés s'appuie sur l'imaginaire lié à l'innovation et au développement économique : pour créer des technologies inédites, il était indispensable de s'appuyer sur des contenus protégés par le droit d'auteur. Quitte à recourir à des réservoirs de titres piratés ? En janvier dernier, OpenAI, à l'origine du fameux ChatGPT, avait admis qu'il était impossible, à ses yeux, de créer des outils tels que son chatbot sans accéder à des documents protégés par le droit d'auteur.

