Chercher, Pierre-Carl Langlais adore : il s’est lancé dans des études en histoire de la presse, mobilisant les ressources de l’Intelligence Artificielle pour analyser des corpus entiers. Et au fil des morceaux de code, s’est intéressé à l’outil GPT-2 – logiciel de traitement automatique du langage, produit par OpenAI (société de Elon Musk). « À partir d’un corpus, on propose à la machine un début de phrase, et elle génère le texte qui suit. On peut ainsi croiser deux types de textes, pour emprunter un style à l’un et un univers à l’autre », nous explique le post-doctorant.
Le 13/05/2021 à 16:24 par Nicolas Gary
1 Réactions | 395 Partages
Publié le :
13/05/2021 à 16:24
1
Commentaires
395
Partages
En se penchant sur Proust, il découvre un « bon candidat : son style est reconnaissable, et l’on dispose d’énormément de textes – tous dans le domaine public ». Comprendre : librement réutilisables. Il décide alors de puiser dans les romans de Marcel, pour former sa machine.
« Les nouveaux outils de génération de texte s’appuient sur de l’apprentissage profond par “réseaux de neurones” : ils ne lisent pas seulement des mots en vrac comme on le fait traditionnellement, mais sont capables de déceler des relations syntaxiques, sémantiques et stylistiques entre les mots. Nous avons là des outils assez souples, en mesure d’apprendre et de monter en abstraction par rapport au texte de départ en nous immergeant dans une esthétique précise (par exemple le style d’un auteur ou d’un genre), voire dans une société ou une époque en faisant des références précises à des noms de personnes, des pratiques sociales ou des usages culturels. »
Mais il faut partir d’un support : la machine n’a pas de connexion directe avec des Muses 2.0. « Cet ensemble de documents va être fourni, pour définir des réglages — dont le taux d’apprentissage. Or, de même que l’on peut ajouter des couches de savoir, de même, il est possible d’effacer une mémoire antérieure, pour laisser place à un nouveau corpus. Plus le taux d’apprentissage est élevé et plus GPT-2 va se focaliser sur les nouveaux textes fournis. »
Par de délicieuses méthodes de calcul, la machine ingérer les textes et délivrera un fichier, baptisé modèle. Ce dernier présente plusieurs paramètres, intégrant les probabilités de présence de mots, les combinaisons entre les mots et les combinaisons de combinaisons. « Pour faire écrire de la science-fiction à Proust, rien de plus simple, si je peux dire : on fournit un corpus Proust et on ajoute un roman de SF. La machine aura deux entraînements successifs, et il suffit ensuite de contrôler la température. »
Pas question ici de chaleur thermique : la température désigne le niveau de créativité concédé à la machine. Suivant le curseur que l’on pousse, on aura une ambiance proustienne, dans le style, avec un sens totalement délirant, ou bien un vocabulaire proustien, s’inscrivant dans un monde de SF. Et ainsi de suite. Voilà ce que cela donne :
Je vivais depuis plusieurs années sur la planète Mars et je me demandais à voir les vals; je me donnais la carte d’argent pour vouloir porter sur moi un poisson de voyage. Aussi je n’en gardai plus ce morceau. De mon état de méfération faisait une saine. Sa maison, au milieu de cela, était un des plus simples éléments d’un grand plaisir mais, le pire des milliers, je montai en voiture et m’habillais avant le dîner; la ville, où la promenade des gambins sur l’intérieur est assez nouveau, me semblait que ma maison était là
– GPT-2 d'après Marcel Proust
GPT-2, décrié par son fondateur même, a d’ailleurs donné vie à un nouvel entrant : GPT-3. « Plus puissant, avec énormément de mémoire, il est capable de prouesses techniques dingues », s’enthousiasme Pierre-Carl. Avec le début d’un roman du XIXe siècle, la machine serait en mesure de concevoir toute une écriture sur le même principe. Elle gère également des transitions de langue, de l’anglais au français, par exemple, et bien plus. Voici, par exemple, une extrapolation réalisée à partir du style de Michel Foucault.
« Si je fournis un patron Pokemon, associé aux textes de Balzac, la machine me sortira des fiches Pokemon Balzac avec les personnages de la Comédie humaine. » Impressionnant, certes… mais à quoi bon ? « L’objectif de ces outils est vague », reconnaît le chercheur. « L’assistance à l’écriture est l’un des éléments affichés, et d’ici un à deux ans, ils fonctionneront plutôt bien. Aujourd’hui ils arrivent déjà à rédiger des dépêches et des articles journalistiques crédibles avec des sources, des citations, des références, mais… entièrement inventé. Avec, si l’objet se généralise, un véritable risque de créations de fake news généralisé. »
Et plus encore : pour l’heure, les robots sont certes en mesure d’avoir des conversations raisonnées… mais absolument pas raisonnables. « Ils racontent absolument ce qu’ils veulent, et personne n’a de maîtrise, on l’avait vu avec le cas Microsoft. Politiquement, les IA sont des machines incontrôlables, mais… d’excellentes stylistes. »
Le style ? Mais quid du droit d’auteur sur les textes créés ? « C’est une question… embarrassante pour les concepteurs de ces machines. Aujourd’hui, les IA écrivent à partir du style d’un auteur spécifique : elles reprennent donc “à la manière de”. Prenons le cas d’un auteur de polar avec des personnages récurrents : la machine pourrait organiser des séquences, pour décharger le créateur de passages spécifiques. Mais entre-t-on dans le droit des marques ou celui du droit d’auteur ? L’IA capitalise sur l’image et un style propre à l’auteur… »
À ce titre, on retrouvera la délicieuse plaisanterie d’Alexandre Gefen, réalisée en avril 2020, le 1er, qui revendiquait un poème « quasi inédit de Mallarmé, d’avril 1874, retranscrit au mieux d’après le scan de la lettre manuscrite transmise par mon ami Pierre-Carl Langlais ». L’exercice est bluffant de mallarmisme…
Les robots pourraient donc écrire le prochain roman de Michael Connelly ? « Nous n’y sommes pas, pas du tout. Si les modèles sont opérationnels, c’est à l’échelle d’une page, uniquement. À cette heure, l’IA n’a aucune notion de schéma narratif. Concrètement, on pourrait remplacer une écurie entière de scénaristes par l’IA, mais il faudrait un chef d’orchestre pour tout harmoniser : l’intrigue serait totalement à revoir dans le cadre d’un roman. »
En revanche, la littérature expérimentale, elle, fonctionne plus que bien, comme le montre le cas Mallarmé. À ce titre, l’IA repousse les limites connues de la stylistique, ou même de la poétique.
En ce jour d’avril inattendu
Je goûte au plaisir du temps suspendu
De naître à quelque lieu de mai
Au cours de la tribu s’enroulantSens, son courage n’endort bientôt
La pourpre de l’œil inscrit
Qu’échappe au pli qu’une allée s’y mêle
Surgit après les épavesSurgi le glaive inscrit
Surgi le repousset assourdi
Tous, vils et frémi
Pour la même allocutionQui le maintient, ô l’air effarouché
Toutes dans un mouvement
Ne puisse à l’abandon surpriant
S’ensurre de la désuétude– Mallarmé, d'après GPT-2
« Si dans les réglages, je choisis de la dispenser de sens, elle peut produire des résultats hallucinants. Et qui contestent la notion universitaire même de style, de création. La dimension artistique, c’est ce qui était censé échapper à la machine, or ici, pas du tout », relève Pierre-Carl Langlais. « Un style s’identifie par un ensemble de critères connus. Or, ces outils font la même chose : ils exercent une analyse, avec un véritable raisonnement, pas simplement en perroquets numériques. »
De quoi bouleverser bien des préconçus. « Qui parle, c’est la première question des cours de français au lycée : identifier le narrateur. Ici, l’idée d’un narrateur devient passablement inconfortable, au point de bouleverser l’idée même d’une école de littérature, parce que les mécanismes à l’œuvre sont chamboulés. » Chamboulés, certes, mais également découverts, mis à nu, comme jamais. Parce qu’en interconnectant les textes, les époques, les machines parviennent à produire une histoire de la littérature jamais vue.
« Prenons le cas des romans-feuilletons du XIXe siècle. Une masse significative de cette littérature n’a jamais été diffusée. Or, par son fonctionnement, le DeepLearning met en place des relations, à mesure de ses fouilles. Il agit comme un archéologue. C’est ainsi que l’on découvre, juste en intégrant les corpus, que la figure du gentleman cambrioleur est apparue dans les années 1840, dans la presse, jusqu’à donner progressivement vie à Arsène Lupin. »
Cette capacité, découlant du text and data mining, pourrait changer notre perception de la littérature, des courants et des influences… pour ne pas dire des cas de plagiat jusqu’à lors inconnus. « Je reprends le cas du roman-feuilleton : à l’époque, pas de gestion des droits d’auteurs. On assiste à une multiplication des rééditions, des réécritures… bref, on s’inspire sans trop le dire. Ici, l’IA est en mesure d’observer, d’analyser et de faire les rapprochements entre les textes, sans peine. » Donc, de confondre un pirate…
Reste à comprendre cette alchimie numérique, « et il faut reconnaître que pour l’heure, elle nous échappe totalement, autant qu’elle peut échapper à ses créateurs ». Frankenstein, sors de ce corps… « On ignore bien des choses sur la manière dont GPT-3 a été alimenté. Ce manque de transparence a été amplement reproché à Elon Musk et OpenAI… et l’on n’en sait toujours pas plus. » Certainement des contenus qui ne relèvent pas que du domaine public — et selon certains, le procès Google Books, en comparaison, ressemblerait à une gentille plaisanterie…
Alors quoi ? On aurait scanné tout internet, récupéré toutes les bases de données de Google Books ? « On l’ignore, mais il y a des quantités d’archives impressionnantes. » D’ailleurs, pourquoi Google ne s’intéresse pas à cette solution ? « OpenAI avait d’abord hésité à sortir GPT-2 en jugeant l’outil trop dangereux avant de finalement monétiser sa version plus puissante GPT-3. Google a déjà produit son outil, mais se trouve confronté aux mêmes problématiques : qui assumerait d’avoir fourni à la planète un puissant — trop puissant, trop convaincant ? – générateur de Fake News ? Ou un bot chargé de conseiller des personnes, qui finit par proposer de se suicider ? »
Pour aboutir à des résultats semblables, nul besoin de science-fiction. En revanche, travailler sur des ensembles de corpus permettrait d’affiner les constructions de machines. « Améliorer la documentation, cela implique d’avoir une certaine compétence en littérature, peut-être en sciences sociales : tout cela est un enjeu pour l’avenir de ces outils et leur perfectionnement. »
D’autant que d’ici à quelques années, outre la capacité de GPT-3 (dont la proximité avec le Geppetto, le menuisier qui donnera forme à Pinocchio reste troublant) s’affinera plus encore. À cette heure, l’outil est en mesure, au-delà des éléments stylistiques, d’ajouter un certain savoir local, voire historique. « On peut imaginer qu’il intégrerait des éléments de vécu liés à un auteur — comme des biographies. Non pas pour en calquer et reproduire le style, mais pour assimiler les éléments comme constitutifs de la personne dont l’IA a avalé le corpus. »
Mais d’ici là, quelques recherches sont à mener : « Aujourd’hui, il faut l’avouer, même les spécialistes ne comprennent pas encore le fonctionnement heuristique de ces machines. Mais comme on peut faire évoluer un texte dans un contexte historique — celui de Proust, de Mallarmé, qu’importe —, il suffirait de trouver comment procéder aux branchements pour que cela fonctionne. »
Crédits illustration : Alexander Andrews/ Unsplash ; OpenClipart-Vectors CC0 ; Andy Kelly/ Unsplash
DOSSIER - L'intelligence artificielle au service du livre et de la lecture
Par Nicolas Gary
Contact : ng@actualitte.com
1 Commentaire
Tarambana
14/05/2021 à 13:21
Le plus grand mal ! Écrire, c'est transmettre un état ressenti, une opinion, une idée. On ne doit jamais hypothéquer sur l'effet produit (ça c'est du commerce version Musso and CO). Donc une écriture générée par une IA est une ineptie. À force de ne plus réfléchir par soi-même mais par un outil, on deviendra creux comme un bocal vide. Cela s'appelle l'idiocratie et je la vis au quotidien avec les crétins digitaux que je fréquente dans les écoles de commerce...