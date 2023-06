ChatGPT, comme tous les autres outils basés sur les technologies d'intelligence artificielle, a été mis au point et s'améliore de jour en jour grâce à l'apprentissage automatique. Pour faire simple, la « lecture » de nombreux textes permet à cette IA générative de façonner ses réponses et de les rendre de plus en plus pertinentes.

Pour la conception de son intelligence artificielle, l'entreprise OpenAI, installée à San Francisco, a utilisé des corpus de textes, sans forcément en détailler la composition. Certains relèvent du domaine public, mais d'autres sont couverts par le droit d'auteur...

Un détournement des œuvres

Deux auteurs américains, Paul Tremblay et Mona Awad, ont porté plainte à San Francisco, ce mercredi 28 juin, contre OpenAI. Ils accusent l'entreprise américaine d'avoir « alimenté et entrainé ChatGPT » avec leurs œuvres protégées par le droit d'auteur, « sans consentement, sans mention des sources et sans compensation ».

Les deux plaignants font ainsi référence à un document de 2018, qui avait servi de présentation à GPT-1, le premier modèle de langage d'OpenAI. Il y est indiqué que l'outil a été entrainé à l'aide de BookCorpus, un ensemble de textes de sources diverses, comprenant notamment plus de 11.000 livres en anglais, répartis en 16 genres fictionnels.

Un des réservoirs pour BookCorpus n'était autre que Smashwords, plateforme d'autopublication américaine. Des titres en accès libre, mais néanmoins couverts par le droit d'auteur, avaient été intégrés au corpus, avant de servir à « entrainer » diverses intelligences artificielles, dont celle d'OpenAI, mais aussi de Google ou d'Amazon.

Les plaignants assurent que leurs ouvrages ont également été « ingérés » par ChatGPT, mais ouvrent la porte à une action collective : d'autres victimes peuvent rejoindre la procédure, pour espérer une réparation judiciaire, souligne Reuters.

Fair use ou piratage ?

Si OpenAI n'a pas encore réagi à l'action en justice qui la vise, la société risque sans doute de se prévaloir du fair use. Ce dernier correspond à une exception au copyright américain, applicable sous certaines conditions uniquement, dans un contexte qui relève généralement de l'éducation ou de la recherche.

Le législateur américain n'a pas tranché quant à la licéité de l'exploitation des œuvres protégées par le droit d'auteur pour l'entrainement des intelligences artificielles. L'issue du procès ou la modification du copyright auront donc des conséquences importantes pour le développement de ces technologies et les éventuelles compensations dues aux auteurs.

Pour l'instant, l'Authors Guild, organisation représentative des écrivains outre-Atlantique, n'a pas réagi à la plainte déposée. Mais cette dernière s'inscrit en tout cas dans la position défendue par l'AG, qui réclame « l'accord des auteurs pour l'usage de leurs œuvres par des IA génératives », mais aussi la transparence de la composition des corpus ou encore le versement d'une compensation.

L'Union européenne elle-même planche sur le sujet, avec un « IA Act » attendu, qui fait l'objet de négociations. La directive européenne du 17 avril 2019, transposée dans le droit français en juin 2022, avait introduit une exception au droit d'auteur pour la fouille de textes et de données, qui recouvre certains usages pour l'entrainement des IA. Toutefois, écrivains et éditeurs peuvent s'y opposer, dans des conditions particulières.

L'UE veut obliger les concepteurs d'IA à mettre à disposition « un résumé suffisamment détaillé de l’utilisation des données d’entrainement protégées par la législation sur le droit d’auteur », mais aussi à indiquer « de manière appropriée, claire, visible » la nature artificielle d'un texte.

Des mesures insuffisantes vis-à-vis du droit d'auteur dans le domaine de l'écrit, avaient réagi la Fédération des éditeurs européens et le Conseil des écrivains européens.

