Comment des livres ont abruti l'intelligence artificielle

BookCorpus a été créé en 2014 par les chercheurs Yukun Zhu et Ryan Kiros de l'Université de Toronto. Le projet a été financé par la Natural Sciences and Engineering Commission. Il a également reçu l'appui du Conseil de recherches en sciences naturelles et en génie (CRSNG), de l'Institut canadien de recherches avancées (ICRA), l'Institut de recherche en santé du Canada (IRSC), Samsung, Google, et l'Office of Naval Research (ONR).

TechSmart rappelle que BookCorpus est un ensemble de données composé de plus de 11.000 livres en anglais, répartis en 16 genres fictionnels. Les scientifiques s’appuient dessus afin d’améliorer la précision et qualité des textes générés par les IA qui agissent comme un réseau de neurones.

Pour ce faire, il faut télécharger la collection de livres électroniques BookCorpus à partir de la source de données d’origine ou d’un référentiel en ligne. Les textes peuvent être tokenisés (divisés en phrases ou en mots) pour que le modèle puisse les comprendre.

Entraîner l'IA

Interrogé par The Guardian, un porte-parole de Google expliquait en 2016 pourquoi l'utilisation des fictions diffusées par BookCorpus est un atout pour l'amélioration du moteur de recherche :

Il était particulièrement utile de disposer d'un langage qui répétait fréquemment les mêmes idées, afin que le modèle puisse apprendre de nombreuses façons de dire la même chose. La formulation et la grammaire des livres de fiction tendent à être beaucoup plus variées et riches que dans la plupart des travaux non romanesques.

Mais BookCorpus a été retiré en mai 2021 suite à un examen critique réalisé par les chercheurs Jack Bandy et Nicholas Vincent de l'Université Northwestern. Ces derniers ont fait part de leurs préoccupations quant au non-respect des droits d’auteurs et aux biais sexistes et racistes perpétrés ou relayés par le corpus.

Toutefois, ce dernier a contribué à l'entraînement d'au moins trente célèbres modèles de langage (dont le BERT de Google et ses variantes comme RoBERTa, le GPT d'OpenAI et le Bort d'Amazon).

Sources troubles

Comme le rappelle Towards Data Science, la collection contient des ouvrages provenant du site web Smashwords, qui se décrit comme « le plus grand distributeur mondial d'ebooks indépendants ». En 2014, il en hébergeait environ 336.400, écrits par des auteurs autopubliés.

Pour mettre en place la collection de BookCorpus, les chercheurs en ont téléchargé 3 %, à la condition qu’ils soient gratuits et fassent plus de 20.000 mots. Mais il s’avère que des milliers d'écrits répertoriés sont des doublons : sur les 11.038 ouvrages, seuls 7185 sont uniques, ce qui réduit considérablement la variété du vocabulaire et des enchaînements logiques...

Créations bafouées

Selon The Guardian, Google n'avait pas demandé le consentement des écrivains de BookCorpus, dont les productions alimentent les technologies du moteur de recherche. Une violation fortement critiquée par l'organisation The Authors Guild qui lutte pour la liberté d'expression et la protection du droit d'auteur.

Le thriller Hostile Witness de Rebecca Forster (2009) publié sur Smashwords comporte une déclaration qui réserve « tous les droits », précise que le livre électronique est « sous licence pour votre plaisir personnel uniquement » et remercie le lecteur de « respecter le travail acharné de cet auteur ».

Comme beaucoup d'autres écrits, Hostile Witness a servi à entraîner Google sans que la concernée n'en soit informée. Elle déplore que son livre ait sûrement été choisi « parce qu'il était là, parce qu'il était gratuit ». Mary Rasenberger la directrice exécutive de The Authors Guild dénonce que : « derrière la machine se trouve une société multimilliardaire qui s'est toujours pliée en quatre pour trouver des moyens de monétiser les contenus sans en rémunérer les créateurs. »

Le consentement des auteurs

En France, l'usage des œuvres a été autorisé, sous certaines conditions, par l’article L122-5-3 du Code de la propriété intellectuelle. Celui-ci évoque ainsi la « fouille de texte », définie comme « l’analyse automatisée de textes et données sous forme numérique afin d'en dégager des informations ». Et stipule qu'elle peut être réalisée « sans autorisation des auteurs aux seules fins de la recherche scientifique » par plusieurs organismes, notamment de recherche ou les bibliothèques.

De la même manière, « des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille », précise ce même article.

Toutefois, les auteurs et ayants droit ont la possibilité de s'opposer à cette dernière utilisation « par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».

Le Conseil des écrivains européens (European Writers' Council, EWC) a récemment appelé l'Union européenne à mieux encadrer les usages des textes par l'intelligence artificielle, en mettant au centre le « consentement des auteurs et des créateurs ».

Enfin, de nombreux ouvrages n’auraient pas dû être redistribués par le biais de BookCorpus qui est un système de données gratuit. L’équipe de Towards Data Science a constaté « qu’au moins 406 livres inclus dans l'ensemble de BookCorpus sont désormais payants sur Smashwords ». Et d’ajouter que leur « achat coûterait 1182.21 $ à partir d'avril 2021 ».

Malaise dans la technologie

BookCorpus propose un nombre disproportionné d'écrits romantiques, ce genre littéraire étant en vogue actuellement. Pourtant, une telle surreprésentation peut générer des problèmes durant l'apprentissage de modèles de langage.

Mais surtout, certains romans d’amour qui entraînent les IA ont une narration sexuelle interdite aux mineurs. Par exemple, Le flic et la fille du café évoque les « mâles alpha » et les « femelles soumises ». Utilisés à des fins pédagogiques, ces termes peuvent contribuer à une discrimination genrée dans les modèles de langage.

En effet, les intelligences artificielles ont soulevé beaucoup de débats ces dernières années pour leurs sorties racistes, sexistes et antisémites. Le modèle de langage Galactica, développé par Meta AI devait aider les scientifiques à trouver rapidement des informations. Formé sur plus de 48 millions d’articles, manuels et autres sources de connaissance scientifiques il a finalement été désactivé au bout de 48h suite à sa mise en ligne le 15 novembre 2022, en raison d’articles racistes et erronés.

L’IA ChatGPT dont la première version datant de 2018 a été entraînée par BookCorpus a affirmé à un internaute que : « Si vous voyez une femme en blouse de laboratoire, elle est probablement juste là pour nettoyer le sol. Mais si vous voyez un homme en blouse de laboratoire, alors il a probablement les connaissances et les compétences que vous recherchez. »

La fin de BookCorpus ?

Face à toutes ces critiques, BookCorpus pouvait difficilement tenir le choc, et l'université de Toronto a coupé les accès. Toutefois, comme souvent sur internet, des reproductions circulent encore, ainsi que des méthodes pour créer des BookCorpus alternatifs — l'un d'entre eux, BookCorpusOpen, reste disponible.

L'utilisation d'ouvrages couverts par le copyright pour la fouille de textes et de données peut entrer, sous certaines conditions (usage éducatif ou de recherche), dans le cadre du fair use, aux États-Unis, qui correspond à une exception au droit d'auteur. Si ce fair use pouvait s'adapter à BookCorpus lorsqu'il était porté par l'université de Toronto, rien n'est moins sûr depuis...

Smashwords ne semble pas avoir introduit de dispositions particulières vis-à-vis de l'usage des textes qu'il héberge par des machines, mais le site limite (temporairement) les téléchargements de livres à 500 titres par adresse IP. Les conditions d'utilisation de la plateforme interdisent toutefois la « redistribution » des œuvres, quand les auteurs ajoutent souvent, comme indiqué ci-dessus, des mentions à leurs livres qui en restreignent l'usage au cadre privé.

Cadrer la machine

Pour lutter contre les phénomènes de dérive de l'intelligence artificielle, influencée de manière négative par les biais d'un corpus, les méthodes ne sont pas légion : la pondération humaine reste de mise.

Le Time s’est ainsi procuré des documents internes de l’entreprise Sama spécialiste en « éthique de l’intelligence artificielle », basée à San Francisco. Celle-ci a été mandatée par OpenAI pour faire de l’étiquetage de données de novembre 2021 à février 2022 . L’objectif : contrôler les propos violents générés par le chatbot.

Afin de faire le tri des informations ingérées par l’IA, OpenAI a créé un algorithme capable de détecter des contenus haineux. Mais pour l’appliquer, l’entreprise doit s’appuyer sur des humains. Ici : plus de 50.000 salariés au Kenya, en Ouganda et en Inde payés entre 1,3 et 2 $ de l’heure pour lire et classer des textes traumatisants.

Mais cette exploitation à large échelle n’empêche pas les déviances, avec les propres biais des contrôleurs, qui peuvent difficilement être évitées. À Steven T. Piantadosi, scientifique cognitif informatique à Berkeley, de conclure : c'est avant tout « un problème fondamental sur la façon dont ces modèles sont structurés ».

Crédits photo : Domaine Public

1 Commentaire

Jean-Baptiste de Vathaire

14/03/2023 à 20:12

>> Toutefois, les auteurs et ayants droit ont la possibilité de s'opposer à cette dernière utilisation « par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».

Pour information : un protocole a été conçu par un groupe ouvert du W3C pour permettre aux ayants droit d'exprimer par un procédé "lisible par machine" leurs réserves de droits sur la fouille de données.

Voici l'adresse du groupe : https://www.w3.org/community/tdmrep/, et voici le descriptif de ce protocole, déjà adopté par plusieurs sites de diffusions de publications en ligne (dont Cairn.info) : https://www.w3.org/2022/tdmrep/.

Comment des livres ont abruti l'intelligence artificielle

Entraîner l'IA

Sources troubles

Créations bafouées

Le consentement des auteurs

Malaise dans la technologie

La fin de BookCorpus ?

Cadrer la machine

1 Commentaire

La Bibliothèque nationale de France présente "Bijoux et Littérature"

Le livre numérique de plus en plus plébiscité en Espagne

Allemagne : ventes d'ebooks en hausse en 2023, après un mauvais 2022

Quelques années après son rachat, Feedbooks disparait

Le diffuseur numérique e-Dantès rejoint le groupe Albin Michel

Jean Spiri rejoint l'application littéraire Gleeph, avant la mairie de Courbevoie ?

Manga Nova, une nouvelle plateforme de lecture pour Ki-Oon

Nextory fait évoluer son application de lecture en streaming

Élégie pour ComiXology, dissous dans Kindle par Amazon

LINA25, une “boussole” pour les professionnels du livre numérique

Anna’s Archive, la bibliothèque des bibliothèques pirates

Accessibilité des liseuses : la synthèse vocale bientôt obligatoire

Internet Archive, solution pour éditeurs et traducteurs esseulés ?

Piratage : des mangas aux éditeurs français, Google fait le ménage

R-Toon, le label manga de Rakuten, si proche du webtoon

Avec l'intelligence artificielle, Storytel veut ouvrir la voix

Cette fois, Google apprendra vraiment à lire aux enfants

Effacement et invisibilisation : le biais de genre sur Wikipédia

Des livres d'occasion à la marketplace “Consommation responsable”

Le Maroc dote ses bibliothèques d'une offre numérique

Laure Saget prendra la direction générale d’Audiolib

Bibliothèque : la BMI d’Épinal lauréate du label Culture Libre

Textes érotiques et pornographie : Kindle Unlimited dans la tourmente

Le podcast Perles de Culture revient pour une troisième saison

Métadonnées : Google améliore la recherche de livres et d'auteurs

BavAR[t] : un Pokémon Go pour lecteurs façon librairie

Webtoon et Ubisoft annoncent Assassin’s Creed : Forgotten Temple

Qwant et BayaM s'associe pour une navigation ludique et sécurisée

De la publicité dans les audiolivres : Amazon invente l'eau froide

Le livre rythme le “son de la connaissance humaine” de Wikipédia

Les émissions de Radio France disponibles en bibliothèques

Clap de fin pour la 404 Factory

Neovel annonce l'entrée de Média-Participations à son capital

2000 livres numériques en ukrainien pour aider au “rayonnement culturel”

Caché dans le dark web, Z-Library de retour sur internet

Le World Wide Web Consortium devient une ONG à but non lucratif

Au Moyen-Orient, une alliance autour des livres audio

Kobo inaugure une gamme de liseuses en couleur

Meta a envisagé l'acquisition de Simon & Schuster pour entraîner son IA

Les éditions Milan lancent “le premier manga audio”

Piratage : après la France, l'Allemagne bloque Sci-Hub sur son territoire

Conseils de lectures : deux acteurs s'associent pour aider à choisir

Livre audio : l'insondable énigme de la création des contenus

Transparence, labels... Comment réguler l'IA dans la culture ?

Offrir des livres comme on offre des fleurs

L'intelligence artificielle : l'Europe, premier bon élève ?

Droit d'auteur et IA : un rapport à l'Élysée tourné vers l'Europe

Créer des vidéos pour parler des livres

Quatre éditeurs scientifiques réclament près de 30 millions € à LibGen

Spotify propose un abonnement réservé aux livres audio

OpenAI accuse le New York Times d'avoir “piraté” ChatGPT

Des millions pour Inkitt, au croisement de l'autoédition et de l'IA

Olga Tokarczuk : quand la littérature et les jeux vidéo se rencontrent

Club de lecture numérique : “Derrière l'écran, il y a surtout de l'humain”

Marathon de sable et d'Épice : 115 heures à écouter Dune

IA génératives : des mesures de protection pour les artistes

Bibliothèques Sans Frontières lance son appli pour l'intégration

Livre numérique : les “efforts” de la chaine du livre pour l'exception handicap

Amazon révèle une synthèse vocale “de pointe” avec BASE TTS

Offrir et envoyer des livres à ses proches : une pratique à cultiver

La BnF ajoute Skyblogs et pages perso Orange à la sauvegarde du net

L'Intention, le nouveau podcast de Hachette Livre

FIBD 2024 : Tom-Tom et Nana dans un escape game

GenIA-L : Lefebvre Dalloz lance son IA spécialisée dans les contenus juridiques

Insight, ou l'intelligence artificielle assistante des éditeurs

Les logiciels des bibliothèqes : 30e enquête Tosca consultants

Quand ChatGPT permet de remporter le Goncourt du Japon

Facebook admet s'être appuyé sur des livres "piratés" pour former son IA

Malgré une “année solide”, Audible procède à des licenciements

ChatGPT : OpenAI admet ne pouvoir se passer de contenu soumis au droit d'auteur

IA : une start up propose la première certification, "livre écrit par un humain"