Ce recours collectif contre Meta, les accusant d'avoir utilisé des livres piratés pour former leur IA LlaMA, mentionne notamment le référentiel Books3 : « Meta admet avoir utilisé des portions de l'ensemble de données Books3, parmi de nombreux autres documents, pour former Llama 1 et Llama 2 », a déclaré l'entreprise de Mark Zuckerberg, dans une réponse.

Cependant, la multinationale affirme que « dans la mesure où une réponse est considérée comme nécessaire, elle nie que l'utilisation de travaux protégés par le droit d'auteur pour former Llama nécessitait le consentement, la reconnaissance ou la compensation. »

Elle s'appuie pour ce faire sur la doctrine américaine de « l'usage équitable », et ainsi affirme n'avoir enfreint les droits d'auteur des plaignants. « Dans la mesure où Meta a fait des copies non autorisées d'œuvres protégées par le droit d'auteur des plaignants, de telles copies constituent une utilisation équitable en vertu de l'article 107 du titre 17 du Code des États-Unis », écrit la société.

Selon OpenAI, « Le droit d'auteur couvre aujourd'hui pratiquement toute sorte d'expression humaine – y compris les billets de blog, les photographies, les publications sur les forums, des morceaux de code informatique et des documents gouvernementaux – il serait impossible d'entraîner les modèles d'IA leaders d'aujourd'hui sans utiliser de matériaux protégés par le droit d'auteur. »

Et d'ajouter : « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne fournirait pas de systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui. »

L'entreprise a néanmoins admis, sujet que n'a pas soulevé Meta, qu'il restait « encore du travail à faire pour soutenir et autonomiser les créateurs ».

Books3 n'existe plus

Le site The Eye a supprimé toutes les ressources de Books3 (utilisées par Meta donc) en août dernier, sous la pression de Rights Alliance. Cette bibliothèque numérique comprenait des ouvrages de maisons d'édition membres de Rights Alliance : plus de 30.000 livres de Penguin Random House et environ 14.000 de HarperCollins, pour un total de 196.640 références.

Les données de Books3 seraient issues de Bibliotik, une autre « bibliothèque fantôme » semblable à Libgen, Z-Library ou Sci-Hub. Books3 avait été initié par EleutherAI, un groupe de recherche à but non lucratif, dans le cadre de The Pile, un ensemble de 800 Go comprenant 22 autres ensembles de données conçus pour la formation de modèles de langage. EleutherAI a utilisé The Pile et d'autres données pour développer ses propres modèles d'IA, y compris GPT-J, un concurrent en son temps de GPT-3 d'OpenAI.

Shawn Presser, l'initiateur de Books3, avait défendu son projet en affirmant, lui aussi, que la création d'une telle base de données est essentielle pour reproduire des modèles comme ChatGPT. Il soutient que sans ressources comme Books3, seuls OpenAI et d'autres entités disposant de ressources financières conséquentes auraient la capacité de créer des modèles d'IA avancés. Pour ce dernier, permettre à chacun de développer son propre ChatGPT est aussi crucial que la liberté de créer des sites web dans les années 90.

Une plainte similaire a par ailleurs été déposée contre OpenAI pour l'utilisation de Books2 dans le développement de GPT-3, bien que le contenu de Books2 et Books1 reste inconnu. Ces référentiels auraient constitué environ 15 % des données d'entraînement de GPT-3.

À LIRE - AI Act : les industries culturelles sollicitent Elisabeth Borne

Les versions antérieures du modèle de langage d'OpenAI reposaient sur des ensembles de données comme BookCorpus, qui contenaient des milliers de textes récupérés sur des sites incluant des œuvres sous droit d'auteur ou nécessitant un paiement pour y accéder, comme Smashwords. Aujourd'hui, le contenu des dizaines de téraoctets de données d'entraînement pour GPT-4 reste opaque.

Crédits photo : ActuaLitté, CC BY SA 2.0