En mars dernier, la société Nvidia, célèbre chez les geeks gamers pour ses cartes graphiques, était accusée de violation de copyright. Pour entraîner son développer des intelligences artificielles, sa plateforme NeMo utilise des ouvrages protégés par le droit d’auteur. Dommage collatéral, se défend la firme.
Le 18/08/2024 à 15:16 par Nicolas Gary
2 Réactions | 349 Partages
Publié le :
18/08/2024 à 15:16
2
Commentaires
349
Partages
À l’origine, trois auteurs affirment que leurs ouvrages comptent parmi les titres d’un très vaste corpus de textes piratés : de fait, plus la base de données servant à former l’IA est large, mieux le bébé fonctionnera. Mais pour les ayants droit, cette utilisation sans cadre revient à piller tout simplement les œuvres réalisées.
Plusieurs poursuites judiciaires ont mis en cause des entreprises telles qu’OpenAI, Microsoft, Meta et plus récemment NVIDIA, toutes accusées d’avoir eu recours à Books3. Il s'agit d'un corpus comptant près de 200.000 ouvrages sous doit, tiré de la bibliothèque du site pirate Bibliotik.
La médiatisation de ces affaires a conduit à ce que les firmes présentent de plates excuses : le mal était déjà fait. En parallèle, des entreprises spécialisées dans la lutte contre le piratage ont assisté les éditeurs dans la mise hors ligne des bibliothèques considérées comme illégales, afin de prévenir d’autres préjudices.
Sauf que d’autres bases existent — comme l’a récemment indiqué le groupe anti-piratage néerlandais BREIN, avec la suppression d’un ensemble de données néerlandais, rapporte Torrent Freak.
En mars dernier, Brian Keene, Abdi Nazemian et Stewart O’Nan mettaient en cause Nvidia, dans un action collective pour violation présumée de copyright. Et de réclamer une compensation financière pour utilisation indue. Bim, quelques semaines plus tard, une seconde plainte frappait la firme — bien décidée à se défendre en niant toute contrefaçon. Ou presque.
NVIDIA a admis avoir utilisé le jeu de données Books3, affirmant que l’entraînement de l’IA avec des données protégées par le droit d’auteur relève de l’usage équitable, surtout lorsque le modèle ne reproduit pas directement les œuvres. Les auteurs, quant à eux, accusent NVIDIA d’avoir délibérément copié des livres piratés pour son modèle d’IA commercial et réclament des dommages-intérêts pour violation du droit d’auteur.
Cette semaine, les auteurs et NVIDIA ont soumis une déclaration commune à un tribunal californien, définissant un calendrier préliminaire pour la gestion de l’affaire. Les deux parties prévoient de prendre le temps nécessaire pour examiner la question, avec une phase de découverte qui pourrait durer jusqu’à octobre de l’année prochaine.
À LIRE - Quand l'IA devient écrivain : le cauchemar des auteurs a pris vie
Un éventuel procès devant jury est envisagé pour novembre 2026. NVIDIA, sans poser de date précise pour le procès, insiste sur l’importance de traiter rapidement la question de l’usage équitable et prévoit de déposer une requête en jugement sommaire dans un an.
Et comble, la firme a trouvé un argument des plus retentissant : selon elle, les ouvrages ne sont constitués que « de faits et d’idées non protégés », car déjà dans le domaine public. Pas vraiment raccord avec le Code de la Propriété Intellectuelle en France ni la législation sur le copyright outre-Atlantique.
On apprend en cours de droit que l’expression de l’idée est protégée (sa forme, voire sa formulation), pas l’idée en soi. Pauvres humains que nous sommes : les modèles d’IA de Nvidia n’ont pas du tout le même point de vue. Durant leur entraînement, les machines ne sollicitent aucune compétence de lecture ni même la compréhension d’une intrigue. En réalité, elle établit des corrélations statistiques qui sont alors ajoutées au modèle de langage en cours d’apprentissage.
À LIRE - Facebook confesse l'usage de livres piratés pour son IA
En somme, Nvidia et ses IA ne se servent pas du tout de livres comme des humains, pas plus qu’ils ne les reproduisent : les machines examinent les faits et idées pour les transformer dans la perspective de construire une IA complexe. « Cela relève de l’usage équitable », ou Fair Use, notion floue aux critères précis, permettant de créer des exceptions au copyright – et qui sert volontiers de fourre-tout quand on est pris la main dans le pot à cookie.
Or, si les intelligences artificielles ne font qu’établir des comparaisons, alors les données propres des livres ne sont effectivement pas copiées avec pour conséquence une contrefaçon patente. « Les plaignants ne peuvent pas utiliser le droit d’auteur pour empêcher l’accès aux faits et aux idées, et le processus de formation hautement transformateur est entièrement protégé par la doctrine bien établie de l’utilisation équitable », pointent ainsi les avocats de Nvidia.
« En effet, accepter la théorie des plaignants signifierait qu’un auteur pourrait protéger par le droit d’auteur les règles de grammaire ou les faits fondamentaux sur le monde. Cela n’a jamais été le cas, et pour une bonne raison. »
Reste qu’avant de voir les tribunaux accueillir plaignants et défenseurs, il faudra définir si l’usage que le fabricant de puces fait de ces bouquins relève bien d’un usage équitable. Ne bougez pas, Nvidia a déjà la réponse. Et de citer, bien évidemment, le célèbre procès qui durant 10 années opposa l’Authors Guild (société américaine représentant les auteurs) à Google Books. Or, la cour d’appel a conclu que la copie de livres pour créer une base de données consultable répondait aux critères du Fair Use : Google Books était pleinement légal.
L’argument ne date pas d’hier : d’autres entreprises inculpées pour des mêmes motifs ont eu recours à cet exemple pour se défendre. Et pour l’avenir des bases de données et contrats de licences que les éditeurs commercialisent, le verdict découlant de cette approche sera déterminant.
Les questions liées à l’usage des modèles et technologies d’IA sont d’autant plus complexes que leurs applications varient largement. Ce qui peut être considéré comme un usage équitable dans un contexte peut être perçu comme une violation du droit d’auteur dans un autre.
Par exemple, cette semaine, un tribunal fédéral en Californie a permis à un procès pour violation du droit d’auteur, intenté par des artistes visuels contre DeviantArt, Midjourney, Runway AI, et Stability AI, de se poursuivre. Ces entreprises sont accusées de violation des droits d’auteur, mais dans ce cas, les accusations concernent des images et les résultats générés par ces outils.
Étant donné l’enjeu des parties impliquées et l’ampleur des dommages potentiels, ces procès pourraient occuper les tribunaux pendant de nombreuses années. Même après des verdicts qui seront considérés comme « définitifs », il est probable que des appels soient interjetés, et certaines questions pourraient finalement être portées devant la Cour suprême.
À LIRE - Les auteurs français qui ont alimenté les IA malgré eux ?
En attendant, les actions de NVIDIA et d’autres sociétés d’IA seront scrutées de près par les spécialistes du droit d’auteur. Cela inclut les récentes accusations relayées par la presse, selon lesquelles NVIDIA, parmi d’autres, aurait utilisé des vidéos et des transcriptions de YouTube pour entraîner leurs modèles d’IA respectifs.
Illustration : DALL•E
2 Commentaires
Chambaron
19/08/2024 à 07:58
L'I.A. qui tue la contrefaçon et le plagiat ? C'est une idée à suivre...
NB Attention à la grammaire, surtout dans un titre ! "Faut bien les faire nourrir, enfin !", à l'image de "je vais te faire montrer", une erreur qui nous aurait valu naguère un coup de règle sur les doigts. "Nourrir" est un verbe factitif qui veut déjà dire "faire manger", inutile de "faire faire", c'est un manque de savoir-faire grammatical qui pourrait endommager une I.A. mal préparée...
joe Askip
22/08/2024 à 18:07
Chambaron vous êtes too much