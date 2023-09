À l’origine de Books3, un chercheur spécialisé dans l’intelligence artificielle, Shawn Presser : il a constitué cette base de données en 2020 et l'a baptisée en référence à Books1 et Books2, dont justement OpenAI s’était servi pour entraîner son modèle de langage, GPT. La société présentait ces catalogues comme un corpus de livres disponibles sur internet : ces derniers constituaient 16 % des données qui ont servi à GPT-3. Pour les versions postérieures, l’entreprise s’est montrée moins bavarde quant aux sources utilisées.

Construire son GPT personnel

Avec ces 37 Go d’ebooks, Shawn Presser avait en tête de proposer une alternative, pour que les entreprises multimilliardaires comme OpenAI ne soient plus les seules à développer des modèles de langage. Or, si la question du droit d’auteur fait rage, concernant la manière dont les IA génératives produisent du texte, la légalité des sources demeure tout aussi épineuse.

C’est dans ce contexte que la Rights Alliance, structure danoise dédiée à la lutte contre le piratage, est intervenue en août dernier. « Il est absolument essentiel que nous empêchions les IA d’être entraînées à partir de contenus illégalement obtenus », assurait la directrice, Maria Fredenslund.

Et quoi de mieux que de retirer Books3 de la circulation — certes un peu tard, puisque l’on sait désormais que LLaMA, l’IA de Meta/Facebook, a largement puisé dans ces ressources. D’ailleurs, couper les liens n’a pas éradiqué Books3 : il existe encore de nombreuses manières de se procurer les titres contenus dans le paquet.

Des lectures, encore des lectures

Books3 contient donc un stock considérable de livres numériques piratés, dont une grande partie a été publiée au cours des vingt dernières années. Depuis quelques semaines, Alex Reisner, développeur et consultant IT, écrit dans The Atlantic sur le sujet : il a même décortiqué la composition de l’ensemble des livres. On apprend ainsi que Books3 dispose d’au moins six prix Nobel de Littérature dans sa besace — Mario Vargas Llosa, José Saramago, Alice Munro et Patrick Modiano.

Ouvrages de cuisine, de voyage, recueils de poèmes, science-fiction, fantasy, titres autoédités de fiction érotique… et puis des grands noms comme Stephen King ou Margaret Atwood. Juste assez pour motiver les dépôts de plainte émanant d’auteurs et d’éditeurs américains — surtout quand un Penguin Random House découvre près de 30 000 de ses titres dans la base ou que son concurrent, HarperCollins, en dénombre 14 000…

Cherche et tu trouveras

En complément de son enquête, Reisner a produit un outil, sobrement baptisé "Search for an author", qui interroge la base de données de Books3. Le risque de faux positif est extrêmement bas, assure-t-il, mais demeure. Cela tient au fait que la masse d’information n’est pas spécifiquement classée, et qu’il a fallu identifier les titres en passant par les ISBN contenus dans les fichiers.

On imagine bien que des ouvrages du domaine public, donc libres de droit et de réutilisation, se retrouvent : qu’en est-il des auteurs français dont les œuvres sont encore protégées par le droit d’auteur ? Car l’intégralité de La Recherche du temps perdu, aucun problème, bien entendu, mais quid de Simone de Beauvoir (au moins deux titres, La Force des choses et La Force de l’âge) ou d’Albert Camus (La mort heureuse) et même Marguerite Duras (Un Barrage contre le Pacifique).

À leurs côtés, Verlaine, Balzac, Voltaire, Verne, Zola, Mérimée… et Antoine de Saint-Exupéry, un cas bien particulier puisqu’il n’y a plus qu’en France que son œuvre demeure sous droit. Ici, ce sont ses Carnets qui ont donné matière à réflexion aux IA…

Des best-sellers à foison

S’étonnera-t-on de trouver Amélie Nothomb et trois de ses romans (Barbe bleue, Le voyage d’hiver et Riquet à la houppe). Guillaume Musso fut moins prisé : seule la traduction de Central Park en espagnol est disponible. Même chose pour Joël Dicker, on ne déniche que O Desaparecimento De Stephanie Mailer.

Fait notable : aucune œuvre de Marc Levy n’est recensée, alors qu’au contraire, cinq titres d’Emmanuel Carrère sont présents. Pour Virginie Grimaldi, un titre, Le parfum du bonheur est plus fort sous la pluie, deux pour Françoise Sagan… Annie Ernaux, pour sa part, déplorera six titres, mais un seul en français, "Les Années" — les autres étant les traductions anglaises.

Hervé le Tellier fait partie des victimes, mais là encore, avec une traduction en anglais, de même que pour Éric Vuillard qui trouvera En orden del día en plus de trois autres en anglais. Leila Slimani est plus hétéroclite : anglais et portugais, mais pas de version originale. Quant à Michel Houellebecq, dont une quinzaine de livres sont référencés, seuls Serotonine et Soumission existent en français. Même son duo avec Bernard-Henri Lévy n’est affiché qu’en anglais.

Les deux candidats au poste de Secrétaire perpétuel de l’Académie française, Amin Maalouf et Jean-Christophe Rufin, totalisent sept ouvrages, mais seul le premier verra Les désorientés comme apport pour le français. De ce que nous avons observé, Patrick Modiano remporte la palme : près d’une trentaine de versions de ses parutions ressortent, avec quatre titres en version originale.

La liste se poursuivrait ad nauseam, pour celles et ceux qui ne l’ont pas déjà, mais démontre le piratage à l’œuvre. « L’intelligence artificielle ne me fait pas peur », assurait dernièrement Stephen King, en découvrant que ses propres publications avaient nourri les modèles de langage. Peur, non, mais mal, peut-être. Encore que pour le roi de l’horreur, tenter d’empêcher la présence de ses écrits dans les bases de données équivalait à vider la mer avec une petite cuillère…

On se fera sa propre idée en utilisant l'outil de recherche ici.

Crédits photo : koshinuke_mcfly CC 0