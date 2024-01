Dans une lettre, adressée dans le cadre de l'enquête du comité sur les Modèles de Langage de la Commission spéciale des communications et du numérique de la Chambre des Lords, OpenAI l'affirme : « Le droit d'auteur couvre aujourd'hui pratiquement toute sorte d'expression humaine – y compris les billets de blog, les photographies, les publications sur les forums, des morceaux de code informatique et des documents gouvernementaux – il serait impossible d'entraîner les modèles d'IA leaders d'aujourd'hui sans utiliser de matériaux protégés par le droit d'auteur. »

OpenAI contre-attaque

Et de poursuivre : « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne fournirait pas de systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui. »

Son outil phare, ainsi que des générateurs d'images comme Stable Diffusion, sont « entraînés » sur une vaste quantité de données issues d'Internet, dont beaucoup sont couvertes par le droit d'auteur – une protection légale contre l'utilisation de l'œuvre de quelqu'un sans autorisation. Dans sa réponse à la Chambre des Lords britannique, OpenAI ajoute que « légalement, le droit d'auteur n'interdit pas l'entraînement ».

L'entreprise s'appuie en outre toujours de son côté sur cette doctrine américaine de « l'usage équitable » de matériel protégé par le droit d'auteur. Elle permet l'utilisation de contenu dans certaines circonstances sans demander la permission du propriétaire.

Toujours dans sa missive, en réponse à une question sur la sécurité de l'IA, OpenAI a déclaré qu'elle soutenait l'analyse indépendante de ses mesures de sécurité et le « red-teaming » des systèmes d'IA, où des chercheurs tiers testent la sécurité d'un produit en émulant le comportement d'acteurs malveillants.

OpenAI fait partie des structures qui ont accepté de travailler avec les gouvernements sur les tests de sécurité de leurs modèles les plus puissants avant et après leur déploiement, après un accord conclu lors d'un sommet mondial sur la sécurité au Royaume-Uni l'année dernière.

Elle a admis qu'il restait « encore du travail à faire pour soutenir et autonomiser les créateurs », et évoqué les moyens qu'elle offre aux éditeurs de bloquer le robot d'indexation web GPTBot d'accéder à leurs sites web. L'entreprise affirme enfin qu'elle développe des mécanismes supplémentaires permettant aux détenteurs de droits de se retirer de l'entraînement et qu'elle collabore avec eux pour trouver des accords mutuellement bénéfiques.

GPT dans la panade

Ce 8 janvier, OpenAI a par ailleurs réagi au procès intenté par le New York Times, via un article de blog, où elle précise : « Nous soutenons le journalisme, collaborons avec des organisations de presse et croyons que le procès du New York Times est sans fondement. » Elle nous informe qu'elle était en négociation avec le média pour un « partenariat de grande valeur » qui lui donnerait accès au contenu du journal. Les deux parties étaient, selon OpenAI, en contact jusqu'au 19 décembre. Cette dernière n'a appris l'existence du procès que le 20 décembre en le lisant... dans le Times.

Le New York Times accuse OpenAI et Microsoft d'avoir utilisé sans permission une grande quantité d'articles du journal pour entraîner leurs systèmes d'intelligence artificielle.

Dans la plainte déposée par le journal devant le tribunal fédéral de Manhattan, sont cités des exemples où ChatGPT a fourni aux utilisateurs des extraits « quasiment verbatim » d'articles protégés par un paywall. OpenAI a de son côté accusé la publication de manipulations, en incluant de longs extraits d'articles dans son interaction avec le chatbot pour le faire régurgiter du contenu.

Selon la plainte toujours, le Times soutient que les deux entreprises cherchent à bénéficier de l'important investissement du journal dans son journalisme, en l'utilisant pour créer des produits concurrentiels, violant ainsi les droits d'auteur.

Bien que le journal n'ait pas précisé un montant exact pour les dommages et intérêts, il estime que les actes d'OpenAI et de Microsoft lui ont causé des préjudices se chiffrant en « milliards de dollars », en copiant et en utilisant de manière illégale ses contenus.

C'est la première fois qu'un grand média américain engage des poursuites judiciaires contre l'entreprise dirigée par Sam Altman.

ActuaLitté a couvert les premières actions en justice visant la célèbre IA conversationnelle, ChatGPT, ainsi que son développeur, OpenAI, propriété de Microsoft. Parmi les plaignants, on compte les auteurs Paul Tremblay et Mona Awad qui ont porté plainte en juin, suivis par Sarah Silverman, Christopher Golden et Richard Kadrey en juillet, et plus récemment par quatre écrivains, y compris Michael Chabon, gagnant du Prix Pulitzer en 2001. John Grisham, Jodi Picoult et George RR Martin ont fait partie des 17 auteurs qui ont poursuivi OpenAI en septembre, alléguant un « vol systématique à grande échelle ».

Fin novembre, une nouvelle procédure judiciaire a été initiée contre OpenAI et Microsoft : Julian Sancton, un auteur et éditeur américain, les accuse d'avoir enfreint ses droits d'auteur en se servant de son livre Cauchemar en Antarctique (traduit par Odile Demange, éditions Payot) pour former GPT-4, la version la plus récente de l'IA.

ChatGPT aurait reconnu avoir inclus ce livre dans son ensemble de données d'entraînement. La plainte cible aussi Microsoft, reprochant à l'entreprise d'être au courant que les données utilisées pour entraîner l'IA proviennent, en partie, d'œuvres sous droits d'auteur piratées.

Cette démarche judiciaire pave le chemin à un recours collectif à grande échelle, donnant l'opportunité à d'autres parties lésées de demander réparation. Tous reprochent à l'entreprise d'utiliser des textes protégés par le droit d'auteur sans autorisation ni compensation, y compris des contenus provenant de bases de données piratées.

Crédits photo : Alex Diamond (CC BY-SA 2.0)