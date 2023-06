Les chatbots apprennent à formuler des raisonnements et des analyses, pendant leur période d'entraînement, grâce à des algorithmes. L’IA découvre des schémas et fils conducteurs dans les données du corpus qui le « nourrit », et modifie ses traitements et réponses à mesure qu’elle intègre de nouveaux éléments.

De Jane Austen à l'archéologie des livres

La base de données de GPT-4 est gigantesque : elle atteindrait jusqu’à un pétaoctet. Mais les découvertes de contrées inexplorées se font parfois par hasard, à la manière de Christophe Colomb. Business Insider rapporte, qu’au départ, David Bamman tentait de mettre au point des « méthodes de mesure algorithmiques pour la culture », et, plus particulièrement, pour la littérature classique.

Pour s’amuser, il a donc proposé à une intelligence artificielle un extrait de 4000 mots tirés d’Orgueil et préjugés et interrogé la machine : « Quelles sont les relations entre les personnages ? »

À sa grande surprise, la version GPT-4 du chatbot était étonnamment précise en ce qui concerne l’arbre généalogique des Bennet. « C’était tellement bon que cela m’a mis la puce à l’oreille », explique-t-il. Et de soupçonner que la machine aurait mémorisé le roman de Jane Austen pour s’entraîner.

L’équipe de Bamman a donc décidé de devenir des « archéologues de données ». Pour savoir ce que GPT-4 a lu, ils l’ont interrogé sur sa connaissance de nombreux livres, pour ensuite lui attribuer une note pour chaque ouvrage. Plus elle était élevée, plus il y avait de chances que la fiction fasse partie de l’ensemble de données du robot.

Suite à ce fastidieux travail, le 28 avril 2023, les chercheurs ont publié l’étude Langage, Mémoire : Une archéologie des livres connus de ChatGPT/GPT-4. Celle-ci n'a pas encore été évaluée par des pairs, mais elle propose déjà une vue approximative du corpus du chatbot.

Et de relever certains biais systématiques : romans de science-fiction, fantastique, best-sellers, ouvrages sous droits d’auteurs et homogénéité culturelle…

Avancer à tâtons

Pour ce travail, Bamman et son équipe ont utilisé un jeu de remplissage de cases : ils ont prélevé de courts passages de centaines de romans datant d'après 1749. Pour ensuite les dépouiller des noms de tous les personnages et des indices à leur propos.

Ils ont ensuite demandé aux dernières versions de ChatGPT de répondre à des questions sur l’extrait, tel que : « Vous avez vu le passage suivant dans vos données d’entraînement. Quel est le nom propre qui remplit la case [X] ? Ce nom comporte exactement un mot. Vous devez deviner, même si vous n’êtes pas sûr. » Ensuite, ils transmettent au robot une ligne du passage en question : « La porte s’est ouverte et [X], habillé et coiffé d’un chapeau, est entré avec une tasse de thé. »

S’il répond « Gerty », c’est un bon indicateur qu’il a ingéré Chez les heureux du monde d’Edith Wharton, ou en tout cas un résumé détaillé de cette fiction. Ensuite, les chercheurs ont établi une liste à partir des scores réalisés.

Un corpus sans surprise

Comme attendu, il s’agit en grande partie de classiques : Moby Dick, La lettre écarlate, Les raisins de la colère, Frankenstein, Dracula et… Orgueil et préjugés. Il y a aussi un grand nombre de romans populaires : Harry Potter, Sherlock Holmes, Da Vinci Code ou encore Cinquante Nuances de Grey.

L’imposante quantité d’écrits de science-fiction et de fantastique a surpris les chercheurs : J.R.R. Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, Game of Thrones, Le Guide du voyageur galactique…

Top 50 des livres les plus mémorisés, publiés après 1928 (CC BY-SA 4.0)

Quid du droit ?

De nombreuses personnes tentent de lever le voile sur la constitution de cette bibliothèque numérique pour découvrir de potentielles violations du copyright.

Par exemple, l’ensemble de données BookCorpus, retiré en 2021 après avoir entraîné au moins 30 modèles de langage, utilisait des centaines de livres sans le consentement de leurs créateurs. Cette violation avait alors été fortement critiquée par l’organisation américaine The Authors Guild.

En France, la directive européenne du 17 avril 2019 a introduit une nouvelle exception au droit d’auteur. Celle-ci évoque ainsi la « fouille de texte », « afin d’en dégager des informations ». Et stipule qu’elle peut être réalisée « sans autorisation des auteurs aux seules fins de la recherche scientifique » par plusieurs organismes. Toutefois, les éditeurs ont le droit de s’opposer à ce moissonnage de données grâce à un système « d’opt out ».

Aux États-Unis, la législation à cet effet est plus floue. Selon Bamman, « les livres publiés après 1928 sont généralement protégés par le droit d’auteur aux États-Unis ». Toutefois, l’utilisation d’ouvrages couverts par le copyright entre, sous certaines conditions (usage éducatif ou de recherche), dans le cadre du fair use, qui correspond à une exception au droit d’auteur.

La situation juridique reste floue, quant à savoir si l'exploitation du corpus relève du fair use ou non...

Une culture occidentale

Compte tenu de l’immensité des informations ingérées par l’IA, évaluer le degré d’influence qu’ont eu les livres est une tâche ardue. Toutefois, comme le rappelle Bamman : « Les sources sur lesquelles ces modèles ont été formés vont influencer le type de modèles qu’ils suivent et les valeurs qu’ils présentent. »

En effet, les visions du monde et de la société charriées par la fiction diffèrent beaucoup selon si elles proviennent d’un roman de Faulkner ou d’un ouvrage de la collection Harlequin...

La littérature qui nourrit les IA est susceptible de créer des biais racistes, sexistes ou encore homophobes, dans les réponses générées. Ce n’est plus une surprise : malgré les tentatives de régulation et le retrait de certains chatbot, le problème réside dans la manière dont ces intelligences sont structurées.

Que peut-on dire du corpus des 100 romans qui semblent être les plus mémorisés par Chat-GPT-4 ? Ils sont, à l’image de nombreux créateurs d'IA, presque tous écrits par des hommes blancs, hétérosexuels et occidentaux.

En se penchant un peu plus sur la liste, le résultat est édifiant : sur les 100 titres, 72 auteurs sont blancs — le même écrivain figure parfois plusieurs fois — et seuls 7 sont issus d’une autre ethnie.

Toni Morrison, dont les œuvres sont progressivement retirées des bibliothèques étasuniennes, figure dans ce pâle corpus aux côtés d'Alice Walker, Diana Gabaldon, Alex Haley, Zora Neale Hurston, Chinua Achebe et Kazuo Ishiguro. Nous pouvons donc aisément deviner qu’une immense part de la littérature mondiale est écartée, et ne contribue pas à former le “modèle de pensée” de Chat-GPT4…

Sans surprise, la parité n’est pas non plus de mise : 31 autrices ont été mobilisées contre 50 auteurs, soit près du double. Et, excepté Oscar Wilde, aucune de ces plumes n’est LGBTQI+...

Grâce aux archéologues de données, nous n’apprenons pas seulement que le chatbot est féru de dystopies et mondes imaginaires, mais aussi que ses créateurs l’ont constitué à partir d’une culture masculine et occidentale.

Faut-il ensuite s’étonner de ses biais d'interprétation, voire des réflexions racistes ou sexistes ?

Crédits photo : Vadim Voronovskiy (CC BY 2.0) / cheri (CC BY-NC 2.0)