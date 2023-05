Cette mise à jour, selon la plateforme de lecture, « souligne que les utilisateurs, les abonnés et les sociétés partenaires de Scribd ne peuvent pas utiliser les données de la société pour les monétiser ou pour entraîner des modèles de langages avancés sans le consentement explicite de Scribd. »

Pour renforcer le tout, le service a confirmé qu’il n’avait autorisé aucune entreprise entraînant les modèles de langages avancés à utiliser le contenu complet fourni par ses partenaires éditeurs. Cet accès est par ailleurs disponible uniquement via le service d’abonnement numérique.

Au début, le verbe

Pour créer ces technologies d'intelligences artificielles et en particulier les modèles de langages avancés, les développeurs doivent se soumettre à une étape primordiale, la collecte des données qui permettront d’entraîner l’IA en question. Pour se faire, un moyen simple existe, l’utilisation des textes en accès libre ou encore de corpus préexistants, comme le fut notamment le disparu BookCorpus.

Sur le papier, 11.000 livres en anglais ressemblent à une véritable mine d’or pour améliorer la précision et la qualité des textes générés. Seulement, dans ces vastes collections de textes numériques se cachent parfois des titres protégés par les droits d’auteurs ou encore des contenus sexistes et xénophobes.

À LIRE - Harry Potter, Hunger Games : ChatGPT pille des livres protégés

C’est d’ailleurs à cause de ces biais que BookCorpus a été retiré en mai 2021 suite à un examen critique. Pour autant, au moins trente des plus grands modèles de langage avaient eu le temps de « profiter » de ces ressources pour leur entraînement.

Si en France, la « fouille de texte » ne s'opère « sans autorisation des auteurs [qu']aux seules fins de la recherche scientifique », il est toutefois possible pour les auteurs et les ayants doit de s’opposer à cette utilisation « par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. »

Dès le mois de février 2023, le conseil des écrivains européens (ou European Writers’ Council, EWC) a appelé l’Union européenne à mieux encadrer les usages des textes par l’intelligence artificielle, mettant au-devant de la scène le « consentement des auteurs et des créateurs ». En somme, face à la gourmandise des IA et de leurs développeurs, une protection des textes semble impérative.

En outre, l'Union européenne doit prochainement adopter une législation encadrant plus strictement les usages des intelligences artificielles. Celle-ci doit être adoptée par les eurodéputés en juin prochain, avant l'ouverture d'un trilogue, entre le Conseil de l’Union européenne, la Commission et le Parlement, pour aboutir à un texte définitif, rappelle Toute l'Europe.

L'homme contre la machine

Trip Adler est le PDG et cofondateur de Scribd. Il déclare dans le communiqué : « Notre bibliothèque abrite des centaines de millions de contenus incroyables créés par des auteurs humains, ce qui en fait l’une des ressources de données les plus précieuses et le plus recherchées. »

La qualité de notre bibliothèque nous distingue, et pour protéger son contenu, nous avons établi des cas dans nos conditions d’utilisation qui supervisent comment et quand d’autres entreprises peuvent utiliser nos données. – Trip Adler

Ainsi, l’entreprise « continuera à donner la priorité aux intérêts des éditeurs participant à son service d’abonnement, à sa base de créateurs qui téléchargent leurs propres contenus sur la plateforme et à l’ensemble de la communauté Scribd. Cela s’ajoute à certaines des mesures déjà en place telles que BookID, l’approche automatisée de Scribd pour protéger les matériaux protégés par le droit d’auteur. »

En effet, lorsque des textes ou autres contenus sont téléchargés sur la plateforme, le système BookID, propre à Scribd, analyse ces fichiers à la recherche de correspondances avec d’autres œuvres protégées par les droits d’auteur. Si par mégarde une correspondance est détectée, Scribd prend des mesures pour protéger les droits des auteurs et des éditeurs concernés.

Pour l'instant, le système ne semble pas avoir été mis à jour pour détecter d'éventuelles œuvres rédigées par des intelligences artificielles — ce qui reste complexe pour un outil automatisé et algorithmique comme BookID, même si certains outils existent déjà.

Une préoccupation mondiale

Mais la plateforme Scribd n’est pas la seule à s’intéresser au devenir de l’intelligence artificielle dans le domaine de l’édition et du contenu. Cette mise à jour de ses conditions d'utilisation ne fait qu'expliciter une certaine inquiétude.

Le lundi 8 mai dernier, lors de l’assemblée générale annuelle de l’Association of Américan Publishers (AAP), le sujet des modèles de langages avancés est revenu sur la table.

Maria Pallante est présidente et directrice générale de l’AAP. Elle a pris la parole pour présenter un aperçu non exhaustif des différents soucis rencontrés par l’édition américaine comme internationale concernant les intelligences artificielles et l’écriture. Elle lance un véritable appel aux éditeurs américains, comme le souligne Publishing Perspectives.

Des éditions plurielles

Parmi les questions les plus pressantes que Pallante soulève, chacune a un impact sur les offres exceptionnellement vastes et transversales de Scribd. Avocate américaine spécialiste du droit d’auteur et des politiques culturelles, elle met en garde les éditeurs américains quant à l’utilisation de l’intelligence artificielle dans différents pans du secteur.

Dans l’édition académique, bien que cela puisse accélérer la recherche et améliorer la curation des articles, il existe de véritables risques quant au biais algorithmique et à la préservation de l’intégrité du processus d’évaluation par les pairs.

Dans le cadre de l’édition éducative, difficile de continuer à appliquer des normes éthiques strictes permettant d’amplifier l’apprentissage et de contenir la triche si l’IA est trop souvent mis à profit. De plus, du fait de leurs méthodes d’entraînement, il convient de noter que l’IA peut générer du contenu trompeur ou faux.

Enfin dans l’édition commerciale, reste encore à définir des normes éthiques concernant la divulgation de la provenance des œuvres générée par les logiciels afin de garantir la transparence et de protéger les droits d’auteur des créateurs humains.

Crédits photo : Focal Foto (CC BY-NC 2.0)