Point de convergence des professionnels du monde entier, la Foire du Livre de Francfort fournit une plateforme pour les dernières avancées du secteur. Cette année, un logiciel vend du rêve en améliorant « la qualité de la sélection des manuscrits ». Une belle promesse… assurée par l'intelligence artificielle.
Le 26/10/2024 à 18:49 par Hocine Bouhadjera
4 Réactions | 824 Partages
Publié le :
26/10/2024 à 18:49
4
Commentaires
824
Partages
Jost-Tilo Gehrke, PDG de la start up berlinoise MyPoolitzer, s’engage sans frémir : son outil est le fruit d’une collaboration avec la société de technologie IA, Quantification. Cette dernière se dit « prête à transformer le processus d’évaluation des manuscrits pour les agents et les éditeurs ». Rien que ça. Et ce, avec un système de notation assisté par IA.
La solution repose sur « une technologie de grand modèle de langage de pointe, combinée à un traitement classique du langage naturel, pour évaluer automatiquement la qualité des manuscrits basée sur quatre paramètres critiques : l’adéquation au style et au genre, la note prévue et le potentiel de vente ».
MyPoolitzer attribue une note, de 0 à 100, à chaque manuscrit soumis, dans le but très noble d’épargner aux agents et éditeurs de précieuses heures passées à se fader d’insipides manuscrits. Et sans traîner : le verdict de la machine tombe en à peine une minute, accompagné d’un retour automatique expédié aux auteurs, histoire de faire passer la pilule...
Le tout solidement sécurisé et accompagné d’options pour relier rapidement des pages web ou des profils de réseaux sociaux, parce qu’il est toujours bon de savoir à quoi ressemble l’auteur derrière le chef-d’œuvre... Une révolution, comme disait Steve Jobs ? Certainement pas : MyPoolitzer n’a rien de la solution miracle qu’elle revendique. Elle n’a même rien d’une nouveauté.
Miroir aux alouettes, l’idée d’une machine sélectionnant les futurs best-sellers a déjà suscité des vocations. Veristage a présenté sa solution maison baptisée Insight en début d’année. Là aussi, on analyse des textes pour jauger la qualité, tout en générant des éléments de marketing comme des résumés, mots-clés, descriptions d’images, contenus pour les réseaux sociaux, citations, métadonnées, versions audio des textes, ou suggestions pour des clubs de lecture.
En coulisse, Insight s’appuie sur une plateforme de gestion de contenu existante, optimisée par l’intégration de modèles de langage avancés tels que ChatGPT d’OpenAI, Claude d’Anthropic, Gemini de Google, et Mistral. Elle propose même une personnalisation selon les préférences des éditeurs en termes de modèles de langage utilisés.
Il y a aussi l’outil gratuit, Artificial Intelligence Review Assistant (AIRA), portée par la plateforme dédiée à la science ouverte, et éditeur de publications académiques en accès libre, Frontiers. Son IA se destine, là encore, à simplifier le travail des éditeurs, relecteurs et auteurs dans l’évaluation des manuscrits, scientifiques cette fois. Soit un nouveau type d’« évaluation par les pairs »...
En 2020, Kamila Markram, CEO de Frontiers, défendait son bébé : « AIRA améliore la qualité des recherches publiées et rend le processus de peer-review plus objectif. » L’argument prête à sourire, en regard des polémiques sur les étapes de validation des articles, avant d’être publiés dans de grandes revues scientifiques. Un cas symbolique : la fameuse étude de Surgisphere sur l’hydroxychloroquine basés sur des données douteuses, finalement retirée des revues médicales The Lancet et The New England Journal of Medicine.
Citons encore la solution UNSILO, qui « réduit les délais de soumission des manuscrits », ou la plateforme PubSURE, portée par la même entreprise Cactus Communications, qui lançait, en 2019, « le premier marché de soumission de manuscrits alimenté par l’IA reliant les auteurs et les revues ».
La première version de ChatGPT est née en 2022 : l’erreur serait de croire que l’IA est une révolution d’OpenAI. L’histoire de l’intelligence artificielle est longue (voir notre encadré en fin d'article “Histoire de l’intelligence à l’âge numérique”), et l’entreprise de Microsoft, mais aussi ses concurrents comme Meta ou Amazon, n’ont fait que changer d’échelle.
L’IA tient du vœu qu’accorderait le génie de la lampe à un contrôleur de gestion : la garantie d’améliorer les processus, optimiser les performances, réduire les coûts en automatisant les tâches routinières... Dans l’édition, comme ailleurs, ces points garantissent autant de gains sur les marges.
Mais un intermédiaire de plus, dans un gâteau déjà trop petit pour que toutes les parties engagées en vive convenablement, voilà qui pose problème, estime la directrice de la Ligue des auteurs professionnels, et juriste, Stéphanie Le Cam.
En outre, si l’édition en tant qu’industrie culturelle en tirait profit, comment laisser aux machines le soin de juger de la portée artistique ? Quelle note attribuerait MyPoolitzer à J. M. G. Le Clézio ? Cathryn Summerhayes, agent littéraire chez Curtis Brown, est formelle auprès de The Bookseller : « Je suis récemment allée en Corée pour une bourse d’édition avec un groupe d’éditeurs internationaux et l’IA était un sujet très discuté, notamment en ce qui concerne les œuvres traduites. »
Sauf qu’au terme de chaque session, la même conclusion revient : rien ne remplace l’appréciation humaine, si faillible soit-elle. Sa consœur, Laetitia Rutherford, agente chez Watson Little, cette fois, représente deux auteurs qui s’appuient en revanche sur des solutions d’IA. Ajay Chowdhury s’en sert pour améliorer la narration et Hannah Silva critique le biais cognitif des algorithmes, avec ces outils mêmes.
L’agente explique : « Je ne doute pas de la puissance des outils IA, et ils se raffinent rapidement, mais actuellement, la prose générée par IA est subtilement (et/ou grossièrement) imparfaite et nécessite une attention humaine. » Et d’ajouter : « Personnellement, je rechignerais à ce qu’une IA évalue pour moi les manuscrits : je ne cherche pas actuellement une fiction de genre qui s’évalue selon des critères fixes préétablis. La forme littéraire demande une analyse qualitative subtile. »
Sauf que l’Intelligence artificielle pose depuis des mois et des mois de furieux problèmes juridiques, avec en tête de liste la violation du droit d’auteur (ou du copyright). Les procès se multiplient opposant des auteurs à des acteurs comme Nvidia, OpenAI et Microsoft ou encore Meta (Facebook).
De fait, les modèles de langage sont entraînés avec des bases de données contenant des œuvres sous droit — un point officiellement reconnu par les sociétés concernées. Vendre une solution de sélection de manuscrits qui repose sur un outil nourri en violation du droit d’auteur… les plus malicieux parleront de génie du crime. Et que l'on ne s'y trompe pas : MyPoolitzer autant que ses prédecesseurs et ceux qui viendront par la suite sont logés à la même enseigne. Leurs racines sont pourries, forgées par un substrat littéralement illégal.
« En termes de jurisprudence, aucune décision n’a été rendue dans une affaire de ce type », met cependant en garde Stéphanie Le Cam. Reste qu’on assiste à un processus de cannibalisation qui repense la chaîne alimentaire : une technologie reposant sur des œuvres piratées, dans le cadre de son développement, pour son entraînement est vendue aux éditeurs... afin de les guider les sélections de futures parutions ?
Nous regrettons à ce titre que Renaud Lefebvre, directeur général du Syndicat national de l'édition, bien que sollicité n'ait pas retourné nos demandes de commentaires sur le sujet. Car le phénomène d'anthropophagie ainsi constaté prête à sourire, jaune : après la crise de la vache folle, celle du manuscrit débile ?
« Le sujet est en réalité très technique, et outre que rien ne dit que ces outils soient très fiables. De plus, il s'avère difficile de dégager la source de l’intervention humaine. Rien ne différencie à ce jour de manière infaillible un texte entièrement humain d’un texte assisté par une IA », reprend la juriste.
La juriste s’est amusée à passer une décision de la Cour de cassation de 1992 à la moulinette d’un détecteur de contenu généré par IA. Résultat : 45 % découleraient de modèles de langage. Le gag.
Les débats et procès intentés outre-Atlantique par des auteurs contre des entreprises de l’IA se concentrent sur la question du droit d’auteur. La raison en est simple : l’objectif à terme est d’imposer à terme un partage des revenus.
Imaginons un lecteur dévorant tous les livres du monde, puis réalisant une œuvre originale, serait-il un plagiaire global ? Et quid du sampling et autres œuvres transformatives ? Stéphanie Le Cam relève que le Japon, « n'entretient pas le même rapport à la notion de reproduction des œuvres ».
Un exemple : pour le cinquantenaire du manga Black Jack d’Osamu Tezuka, Tezuka Productions, dirigée par son fils Macoto Tezka, lance « TEZUKA2023 ». L’idée : s’appuyer sur l’intelligence artificielle pour le scénario et les illustrations, en partenariat avec OpenAI et Stability AI, et reproduire le style original du maître nippon.
Face à cet écueil, la directrice de la Ligue questionne ce focus sur le copyright : « Reproduire le style d’un auteur n’est pas, par exemple, considéré comme un acte de contrefaçon. Ce type de pratiques n’entre pas sous l’égide stricte du droit d’auteur, mais plutôt dans une exception qui pose des questions sur la concurrence loyale ou déloyale, sujet très important au niveau de l’UE. »
Mieux : « Lorsqu’on moissonne les écrits de toute la planète pour en produire un livre, ou qu’on extrait des données pour revendre un produit à un prix ridiculement bas, on entre dans un cas de ce type. Le droit de la concurrence pourrait choisir d’encadrer ce type de pratiques afin de protéger les créateurs, et d’assurer un marché équilibré. »
La juriste propose même de déterrer un vieux principe de droit romain, que l’on retrouve dans le droit français : l’enrichissement sans cause. Il prohibe de s’enrichir, sans raison juridique, aux dépens d’autrui sans compensation.
En France, les procédures en justice demeurent rares, d’abord pour des raisons financières — constat que La Ligue opère : « Pour donner une idée, on est dans des centaines de milliers d’euros, juste en frais de traduction. Rappelons aussi qu’en France, le modèle d’action collective à l’américaine n’existe pas. Chacun porte sa plainte. »
Des structures de gestion des droits d’auteur, comme la Sacem, l’ADAGP ou la Sofia, ont plus de moyens, mais comptent sur des futurs accords de répartition de l’argent engendré par les sociétés d’IA. Le Monde, lui, a été le premier média français a réalisé un accord avec OpenAI — une rémunération pour les contenus. Aux États-Unis pour donner une idée, l’entreprise dirigée par Sam Altman a conclu un accord avec News Corp, qui détient entre autres le Wall Street Journal et le Times, de 250 millions $ sur cinq ans…
« Outre que les termes financiers de ces accords sont rarement rendus publics, il est souvent peu probable que les auteurs en voient la couleur. Un manque de transparence et d’information qui soulève de sérieuses questions sur la juste rémunération des créateurs », réagit Stéphanie Le Cam.
Outre-Atlantique, les griefs portés devant la justice sont toujours les mêmes : l’utilisation non autorisée et jugée illégale de leur production protégée par le droit d’auteur, pour créer des œuvres « dérivées ». Les accusateurs réclament à chaque fois des dommages-intérêts et une ordonnance bloquant les « pratiques commerciales illégales et déloyales ». On est toujours dans l’attente d’une première décision de justice.
La stratégie de défense des créateurs de grands modèles linguistiques repose actuellement sur deux arguments clés. Le premier est fondé sur la doctrine du fair use des lois sur le droit d’auteur, permettant certaines exceptions bien définies en droit. Cela autorise l’utilisation d’œuvres protégées sans l’accord des détenteurs de droits, mais seulement pour des objectifs éducatifs ou de recherche, avec un critère essentiel d’intérêt public. Nvidia, mis en cause, avait même tenté le coup : les livres sont-ils vraiment protégeables en tant qu’œuvres ?
Le second argument repose sur l’idée que l’innovation et le progrès économique nécessitent parfois de s’appuyer sur des contenus soumis au droit d’auteur, même s’ils proviennent de sources illégales. OpenAI, créateur de ChatGPT, a reconnu en janvier qu’il était essentiel d’accéder à des documents protégés pour développer des outils tels que son chatbot.
Récemment, le gouverneur de Californie, Gavin Newsom, a opposé son veto à la loi « Safe and Secure Innovation for Frontier Artificial Intelligence Models Act » (SB1047), qui imposait aux grands développeurs de modèles d’IA des mesures strictes de sécurité, de cybersécurité et de transparence pour limiter les « dommages critiques ».
Ce texte, ciblant les IA avancées, exigeait notamment un « kill switch », des audits indépendants, et une « diligence raisonnable » pour éviter des risques tels que les cyberattaques ou l’usage d’armes de destruction massive. La justification de ce véto ? Éviter un « alourdissement de la responsabilité » des développeurs, qui voyaient là une menace pour le « dynamisme économique » californien. Malgré ce veto, le gouverneur a approuvé huit lois sur l’IA, incluant la transparence des données d’entraînement (AB2013) et le marquage des contenus générés artificiellement, à l’image de l’AI Act européen.
Cette loi, que le Parlement européen a ratifiée le 13 mars dernier, entend placer l’UE à l’avant-garde du cadre réglementaire des technologies d’intelligence artificielle. Pour la problématique du droit d’auteur, elle introduit une exception pour la fouille de textes et de données, afin de faciliter l’utilisation des contenus protégés dans le développement d’IA. Cette exception permet l’usage de ces contenus pour la recherche et l’innovation sans licence spécifique, mais inclut une option de refus pour les ayants droit.
Le même jour que la ratification de cette loi à l’échelle européenne, un rapport détaillé a été remis à Emmanuel Macron. Il propose des licences rémunérées pour l’usage des données protégées par le droit d’auteur et des mesures pour identifier les contenus générés par IA, afin de garantir la transparence et prévenir les manipulations. Et donc ? Rien à signaler…
Et de la proposition de loi n° 1630, déposée le 12 septembre 2023, qui vise à encadrer l’utilisation de l’intelligence artificielle (IA) en matière de droit d’auteur, on en est où ? « Pas de nouvelles », selon Stéphanie Le Cam... Si elle était ratifiée, elle exigerait notamment aux entreprises d’IA un consentement explicite des créateurs avant l’utilisation de leurs œuvres pour l’entraînement des modèles d’IA, d’instituer une rémunération obligatoire via des licences collectives, et d’exiger le consentement explicite des créateurs avant l’utilisation de leurs œuvres pour l’entraînement des modèles d’IA.
L’IA Act a prouvé que les choses ne sont pas si simples. Un exemple récent : le 26 septembre 2024, la Cour constitutionnelle belge, dans son arrêt n° 98/2024, a posé treize questions préjudicielles à la CJUE concernant l’interprétation de la directive DAMUN (UE) 2019/790, suite aux recours introduits par Google, Spotify, Meta Platforms, Streamz, et Sony Music.
Ces entreprises contestent les articles 39, 54, 60 à 62 de la loi du 19 juin 2022, relatifs à la protection des publications de presse en ligne et au droit inaliénable à rémunération pour les auteurs et artistes-interprètes de la part des services de partage de contenu en ligne et des plateformes de streaming, arguant que cela constitue une double rémunération.
À LIRE - L'édition française : “L'IA, on gère : on a numérisé des livres illégalement avec !”
Que faut-il comprendre ? Quand on possède une armée de lobbyistes à Bruxelles, et une équipe d’avocats chevronnée, on peut, au minimum, faire de l’obstruction, et plus généralement, mener la vie dure aux législateurs...
Le 23 juillet dernier encore, une coalition représentant des centaines de milliers d’écrivains, traducteurs, interprètes, compositeurs, auteurs de chansons, réalisateurs, scénaristes, artistes visuels, journalistes et autres travailleurs créatifs a adressé « un appel urgent » au Parlement européen. Elle insiste, là encore, sur la nécessité d’améliorer l’application de l’Acte IA de l’UE. Les signataires sont formels : les créateurs peinent à exercer leur droit de réserve de manière efficace...
La coalition critique l’interprétation actuelle de l’exception de fouille de textes et de données (TDM) de la directive sur le droit d’auteur, affirmant qu’elle est utilisée de manière extensive pour exploiter les œuvres protégées sans autorisation des détenteurs de droits. Selon eux, cette pratique ne respecte pas le « test en trois étapes » de l’UE, conçu pour équilibrer les droits des créateurs et des utilisateurs. Ils appellent à l’introduction de mécanismes de consentement explicite, de transparence et de rémunération pour les auteurs lorsque leurs œuvres sont utilisées par des technologies d’IA.
La conclusion pour Stéphanie Le Cam : « L’existence de mastodontes, comme les GAFAM pose avant tout une problématique de souveraineté. Quand Google commande des mini-réacteurs nucléaires pour alimenter ses data centers, il y a un problème. Cette surpuissance technologique et des moyens vont jusqu’à des implications géopolitiques et éthiques : la question de gestion de l’eau, de l’énergie, du climat... Je propose, à côté du développement durable, de poser les bases d’une “création durable”, où ceux qui créent puissent vivre décemment sur le long terme. »
Histoire de l’intelligence à l’âge numérique
L’année 1944 a été charnière pour l’histoire de l’Occident et du Monde : les accords de Bretton Woods le 22 juillet, ébauchant les contours du système financier mondial pour l’après-Seconde Guerre mondiale, sans parler du Débarquement de Normandie, prélude à la libération de Paris. Un courant de recherche est aussi né cette année-là : celui des réseaux de neurones, qui aujourd’hui profite de l’augmentation des capacités de calcul et de la disponibilité d’énormes bases de données.
L’IA générative à proprement dite — créer du contenu original à partir de données sans programmation explicite — a été introduite dans les années 50. Malgré tout, jusqu’aux années 80, c’était l’intelligence artificielle (IA) dite symbolique ou classique, qui dominait.
Son principe ? Reproduire l’intelligence humaine de manière consciente, en se concentrant sur des processus cognitifs visibles, comme la réflexion que nous faisons pour planifier notre trajet de retour à la maison. Les pensées conscientes étaient organisées et combinées pour trouver la meilleure solution.
Aujourd’hui, l’IA qui fait vibrer dans de pixels, traite des informations d’un niveau inférieur, plus proche de celles manipulées par les neurones, plutôt que celles auxquelles nous avons accès directement. Dit autrement, les systèmes sont « dressés », en montrant un nombre incalculable d’exemples et en leur indiquant ce qui est correct ou non.
Ce processus leur permet d’acquérir des compétences, sans qu’il soit nécessaire de leur donner des instructions précises. Et ensuite d’être pris de court, en bien ou en mal, par les résultats...
Mais il ne faut pas se leurrer : nulle capacité réflexive, nulle personnalité, intelligence, une autonomie. Beaucoup de phénomènes étonnants observés résultent, en réalité, de l’intervention humaine. Outre d’être « entraînées » par la présentation d’exemples, ces machines sont également corrigées par des opérateurs humains. Des interventions qui restent en majorité opaques, protégées par le secret industriel...
Crédits illustration : Francisco de Goya, Saturne dévorant un de ses fils (détail - 1820)
Coécrit avec Nicolas Gary
Par Hocine Bouhadjera
Contact : hb@actualitte.com
4 Commentaires
François Bon
28/10/2024 à 07:46
merci, fait plaisir un article aussi clair et synoptique – on voit bien se profiler les nouvelles usines à gaz genre droit de prêt en bibliothèque, qui ne servent que les structures intermédiaires et quasi quedalle à l'arrivée pour les auteurs – de mon côté ai modifié les © de mes sites pour autoriser explicitement le minage par les LLM – quel contraste les expériences et inventions qu'on peut tirer de ces outils, et toutes ces arguties, en tant qu'auteur selon ce petit monde on n'aurait le droit de lire que les livres domaine public pour ne pas violer ces principes obsolètes de «droit d'auteur», désormais si impuissants à nous assurer le gîte et le couvert, sans parler des achats de livre, et ne ps retrouver un peu de Michaux ou de Duras dans notre travail au quotidien ?
Joëlle
28/10/2024 à 08:09
Excellent article.
Pour vérifier la capacité de ´IA à t on pense à soumettre un roman de Camus et voir ?
Rien ne pourra jamais remplacer la sensibilité, l’émotion qui font un être humain autant que son intelligence.
Félix
28/10/2024 à 16:33
J'ai toujours pensé que l'IA était un monstre bifront, c.à-d avec la capacité d'améliorer la qualité de la vie - médicalement surtout - mais aussi à devenir incontrôlable à un moment donné, en développant une intelligence indépendante de l'intervention humaine. Au fond, dans le monde de l'édition, c'est probablement le 4ème paramètre qui prime, économique celui-là, la potentialité des ventes. Et comme le disait si bien Nathalie Sarraute, nous entrons maintenant dans l'ère du soupçon en ce qui concerne l'application livresque de l'IA : en effet, comment évaluer le style d'un auteur comme J.M.G. Le Clézio par rapport à celui d'un autre? En littérature, tout repose sur le goût personnel et de celui d'une époque donnée. L'arbitraire n'est-il pas déjà une forme d'injustice?
Feran Skern
29/10/2024 à 20:40
Donne un torchon à une IA il en fera du papier toilette. Au pire, il te pondra un Yann Moix.