Quand l’une des sociétés les plus engagées dans la course aux outils d’IA se fait trancher un avant-bras par les actionnaires, les économistes ont un mouvement de recul. Preuve, s’il en est, que cette technologie tient plus de la langue d’Ésope – le pire, comme le meilleur – que de l’arche de Noé.
Le 08/09/2024 à 11:19 par Nicolas Gary
2 Réactions | 252 Partages
Publié le :
08/09/2024 à 11:19
2
Commentaires
252
Partages
Voilà quelques jours, le géant Nvidia dont la valorisation boursière pensait quelque 3000 milliards $ en juin, dévissait totalement : 9,5 % de perte de valeur (qu’on se rassure, il ne s’agit pas de « vrai » argent), soit un coup de bambou à 280 milliards $ ou pas loin. Mais quand la Bourse sanctionne, c’est que les investisseurs doutent : l’IA générative, devenue le sujet le plus en vogue, perdrait de sa superbe et les investisseurs préfèrent les valeurs refuges, bien sécurisantes.
D’autant que Nvidia, justement pour ses développements dans le domaine, est sous le coup de deux plaintes déposées par des auteurs : comme toujours, la firme est accusée d’avoir entraîné ses machines avec des bases de données (comprendre : des livres, pour partie), protégées par le droit d’auteur. Et donc, de ne s’être acquittée d’aucune forme de compensation financière pour avoir lésé auteurs et éditeurs.
Les arguments de l'entreprise relèvent d’ailleurs d’un justificatif que l’on croirait sorti d’un chat d’IA parti en vrille : les avocats pataugent entre grammaires et bases de données, pour justifier son utilisation.
« En effet, accepter la théorie des plaignants signifierait qu’un auteur pourrait protéger par le droit d’auteur les règles de grammaire ou les faits fondamentaux sur le monde. Cela n’a jamais été le cas, et pour une bonne raison », peut-on lire dans leur réponse — laquelle ajoute que leur démarche est pleinement dans les clous du Fair Use, cette série d’exceptions au copyright, parfois bien commodes… pour n’en faire qu’à sa tête.
À LIRE - IA : plusieurs auteurs attaquent en justice l'entreprise Anthropic
Accessoirement, la justice américaine enquête également sur une possible violation des lois sur la concurrence et les comportements monopolistiques que Nvidia imposerait à ses fournisseurs. Or, autant le copyright, l’Amérique y tient, autant la loi antitrust Sherman (remontant à 1890), on ne plaisante pas du tout avec. Et comme l'assignation à comparaître a été expédiée, la plainte officielle n'attendra peut-être pas Noël.
Depuis quelque temps qu’ont débuté les tractations entre éditeurs de presse, de livres, d’images — bref, de tout ce que les IA engloutissent pour produire des réponses —, les montants s’additionnent… sans trop de résultats.
OpenAI (ChatGPT) proposerait aux éditeurs de médias des sommes allant de 1 à 10 millions de dollars par an pour la licence de leurs articles de presse, afin de les utiliser dans l’entraînement de ses modèles de langage. Cette offre est considérée comme faible, même pour des éditeurs de petite taille, ce qui compliquerait les négociations, indique The Verge, dans une enquête.
En ayant eu recours à des archives de structures comme Axel Springer et Condé Nast sans autorisation, OpenAI vise désormais et avec une certaine expression, un accord financier. Paradoxe ? Non point : surtout éviter des poursuites judiciaires, tout en améliorant la qualité des produits.
Cette stratégie pourrait également servir à renforcer la défense d’OpenAI en cas de litige, notamment face au procès intenté par le New York Times, qui accuse OpenAI et Microsoft de violation de droits d’auteur pour avoir utilisé son contenu sans autorisation. Surtout qu’en mai dernier, News Corp, propriétaire du Wall Street Journal, concluait avec OpenAI un accord de contenu évalué à plus de 250 millions $ : juteux et enviable ?
Et avec la perspective d’un moteur de recherche web — avec SearchGPT —, la firme d’Elon Musk a besoin de plus de matière encore. Or, si les tribunaux tranchaient en faveur des éditeurs, cela remodèlerait l’écosystème des modèles de langage — favorisant les grandes entreprises au détriment des nouveaux entrants.
Un point qu’Apple, qui doit rattraper OpenAI et Google dans le domaine de l’intelligence artificielle générative, a parfaitement saisi. La firme à la Pomme avance des offres plus généreuses, mais avec des droits d’utilisation plus étendus, incluant la possibilité d’utiliser le contenu pour de futurs produits d’IA.
L’origine des données servant aux Intelligence Artificielle est controversé depuis les premiers temps : les géants de la tech ont en effet moissonné le plus possible, sans trop se préoccuper de droit ni de légalité. Or, fin 2021, OpenAI manquait de matière afin de poursuivre son développement.
Ses ingénieurs ont alors développé un outil de reconnaissance vocale nommé Whisper, capable de transcrire des vidéos YouTube et ainsi générer des textes conversationnels pour améliorer l’IA. Une utilisation des vidéos qui contreviendraient aux règles de YouTube, interdisant l’utilisation de ses contenus à des fins indépendantes.
EXTRAIT – Quand Chat Gépété raconte la Genèse
Et pourtant, Whisper a généré plus d’un million d’heures de texte, alimentant ainsi GPT-4, le modèle d’IA le plus avancé de l’entreprise. Bien que ces transcriptions puissent enfreindre les droits d’auteur, OpenAI considère leur utilisation comme un usage équitable.
Google a de son côté utilisé des transcriptions de vidéos YouTube pour entraîner ses modèles d’IA, ce qui pourrait violer les droits d’auteur des créateurs de contenu. De plus, l’entreprise a élargi ses conditions de service pour inclure des données provenant de Google Docs et d’autres sources pour ses produits d’IA.
Confronté à une pénurie de données après le lancement de ChatGPT, Meta a exploré des moyens d’acquérir des contenus protégés par des droits d’auteur, y compris la possibilité d’acheter la maison d’édition Simon & Schuster. Les discussions internes ont révélé une volonté de contourner les licences pour accéder à des données supplémentaires.
Mais pourquoi s’acharner de la sorte à chercher des contenus originaux ? Le New York Times, justement, en donne les grandes lignes et les petits détails, de manière très claire : pour éviter d’avoir des données « synthétiques » que l’IA produit elle-même. Car, en ayant recours exclusivement à ces dernières, le risque de biais et d’erreurs augmente considérablement.
De là le besoin de chair fraîche — un équilibre entre données réelles et générées, affirme le chercheur Aatish Bhatia. Selon lui, l’entraînement sur du contenu d’IA provoque un cycle de nivellement semblable à l’endogamie. Un phénomène qu’un autre chercheur, Jathan Sadowski a baptisé « IA Habsbourg », en référence à la célèbre famille royale d’Europe connue pour sa consanguinité.
Les modèles d’IA sont extrêmement gourmands en données, et les entreprises d’IA ont compté sur d’énormes volumes de données extraites du web pour former ces programmes voraces. Actuellement, ni les entreprises d’IA ni leurs utilisateurs ne sont tenus de mentionner ou de marquer le contenu généré par l’IA, rendant plus difficile pour les créateurs d’IA d’éviter que du contenu synthétique ne se retrouve dans les ensembles de données d’entraînement.
Et de donner pour exemple les résultats d’un groupe international basé au Canada et au Royaume-Uni : en demandant à une IA de compléter la phrase : « Pour cuire une dinde pour Thanksgiving, vous… », ils ont reçu une réponse entre surréalisme absurde et dérive psychédélique.
« Pour cuire une dinde pour Thanksgiving, vous devez savoir ce que vous allez faire de votre vie si vous ne savez pas ce que vous allez faire de votre vie si vous ne savez pas ce que vous allez faire de votre vie... »
Mais l’absurdité n’est pas le seul effet secondaire possible de la cannibalisation de l’IA. L’étude MAD, qui se concentrait sur les modèles d’images, a montré que l’alimentation d’IA avec des portraits humains factices provoquait rapidement une convergence bizarre des caractéristiques faciales.
Bien que les chercheurs aient commencé avec un ensemble diversifié de visages générés par l’IA, au quatrième cycle de génération, presque tous les visages se ressemblaient. Étant donné que le biais algorithmique est déjà un problème majeur, le risque que l’ingestion accidentelle de trop de contenu d’IA puisse contribuer à une moindre diversité des sorties est élevé.
À LIRE - Prompt, LLM, token... Comment dire l'IA en français ?
Les données de haute qualité, créées par des humains, ont été essentielles pour les avancées récentes dans la technologie d’IA générative existante. Mais avec la contamination des eaux numériques par le contenu généré par l’IA et l’absence de moyen fiable pour distinguer le vrai du faux, les entreprises d’IA pourraient bientôt se heurter à un mur dangereux.
Illustration : susan-lu4esm CC 0
2 Commentaires
Anne Mansouret
09/09/2024 à 07:45
« La machine peut enregistrer les mots, voire les conceptualiser, mais seule la sensibilité humaine et l’expérience individuelle de la vie peut en faire des idées et des pensées. »
(Copyright Anne Mansouret 😉)
Fausto Maijstral
09/09/2024 à 10:40
Ramifications internes
début & fin
travel intime
D A D A K I L L E R
sur la bande FM