À l’origine, trois auteurs affirment que leurs ouvrages comptent parmi les titres d’un très vaste corpus de textes piratés : de fait, plus la base de données servant à former l’IA est large, mieux le bébé fonctionnera. Mais pour les ayants droit, cette utilisation sans cadre revient à piller tout simplement les œuvres réalisées.

Plusieurs poursuites judiciaires ont mis en cause des entreprises telles qu’OpenAI, Microsoft, Meta et plus récemment NVIDIA, toutes accusées d’avoir eu recours à Books3. Il s'agit d'un corpus comptant près de 200.000 ouvrages sous doit, tiré de la bibliothèque du site pirate Bibliotik.

La médiatisation de ces affaires a conduit à ce que les firmes présentent de plates excuses : le mal était déjà fait. En parallèle, des entreprises spécialisées dans la lutte contre le piratage ont assisté les éditeurs dans la mise hors ligne des bibliothèques considérées comme illégales, afin de prévenir d’autres préjudices.

Sauf que d’autres bases existent — comme l’a récemment indiqué le groupe anti-piratage néerlandais BREIN, avec la suppression d’un ensemble de données néerlandais, rapporte Torrent Freak.

En mars dernier, Brian Keene, Abdi Nazemian et Stewart O’Nan mettaient en cause Nvidia, dans un action collective pour violation présumée de copyright. Et de réclamer une compensation financière pour utilisation indue. Bim, quelques semaines plus tard, une seconde plainte frappait la firme — bien décidée à se défendre en niant toute contrefaçon. Ou presque.

NVIDIA a admis avoir utilisé le jeu de données Books3, affirmant que l’entraînement de l’IA avec des données protégées par le droit d’auteur relève de l’usage équitable, surtout lorsque le modèle ne reproduit pas directement les œuvres. Les auteurs, quant à eux, accusent NVIDIA d’avoir délibérément copié des livres piratés pour son modèle d’IA commercial et réclament des dommages-intérêts pour violation du droit d’auteur.

Cette semaine, les auteurs et NVIDIA ont soumis une déclaration commune à un tribunal californien, définissant un calendrier préliminaire pour la gestion de l’affaire. Les deux parties prévoient de prendre le temps nécessaire pour examiner la question, avec une phase de découverte qui pourrait durer jusqu’à octobre de l’année prochaine.

Un éventuel procès devant jury est envisagé pour novembre 2026. NVIDIA, sans poser de date précise pour le procès, insiste sur l’importance de traiter rapidement la question de l’usage équitable et prévoit de déposer une requête en jugement sommaire dans un an.

Attendez, on en tient une bonne !

Et comble, la firme a trouvé un argument des plus retentissant : selon elle, les ouvrages ne sont constitués que « de faits et d’idées non protégés », car déjà dans le domaine public. Pas vraiment raccord avec le Code de la Propriété Intellectuelle en France ni la législation sur le copyright outre-Atlantique.

On apprend en cours de droit que l’expression de l’idée est protégée (sa forme, voire sa formulation), pas l’idée en soi. Pauvres humains que nous sommes : les modèles d’IA de Nvidia n’ont pas du tout le même point de vue. Durant leur entraînement, les machines ne sollicitent aucune compétence de lecture ni même la compréhension d’une intrigue. En réalité, elle établit des corrélations statistiques qui sont alors ajoutées au modèle de langage en cours d’apprentissage.

En somme, Nvidia et ses IA ne se servent pas du tout de livres comme des humains, pas plus qu’ils ne les reproduisent : les machines examinent les faits et idées pour les transformer dans la perspective de construire une IA complexe. « Cela relève de l’usage équitable », ou Fair Use, notion floue aux critères précis, permettant de créer des exceptions au copyright – et qui sert volontiers de fourre-tout quand on est pris la main dans le pot à cookie.

La grammaire, protégée par le copyright ?

Or, si les intelligences artificielles ne font qu’établir des comparaisons, alors les données propres des livres ne sont effectivement pas copiées avec pour conséquence une contrefaçon patente. « Les plaignants ne peuvent pas utiliser le droit d’auteur pour empêcher l’accès aux faits et aux idées, et le processus de formation hautement transformateur est entièrement protégé par la doctrine bien établie de l’utilisation équitable », pointent ainsi les avocats de Nvidia.

« En effet, accepter la théorie des plaignants signifierait qu’un auteur pourrait protéger par le droit d’auteur les règles de grammaire ou les faits fondamentaux sur le monde. Cela n’a jamais été le cas, et pour une bonne raison. »

Reste qu’avant de voir les tribunaux accueillir plaignants et défenseurs, il faudra définir si l’usage que le fabricant de puces fait de ces bouquins relève bien d’un usage équitable. Ne bougez pas, Nvidia a déjà la réponse. Et de citer, bien évidemment, le célèbre procès qui durant 10 années opposa l’Authors Guild (société américaine représentant les auteurs) à Google Books. Or, la cour d’appel a conclu que la copie de livres pour créer une base de données consultable répondait aux critères du Fair Use : Google Books était pleinement légal.

Les avocats sur le pied de guerre

L’argument ne date pas d’hier : d’autres entreprises inculpées pour des mêmes motifs ont eu recours à cet exemple pour se défendre. Et pour l’avenir des bases de données et contrats de licences que les éditeurs commercialisent, le verdict découlant de cette approche sera déterminant.

Les questions liées à l’usage des modèles et technologies d’IA sont d’autant plus complexes que leurs applications varient largement. Ce qui peut être considéré comme un usage équitable dans un contexte peut être perçu comme une violation du droit d’auteur dans un autre.

Des repercussions redoutées dans l'édition

Par exemple, cette semaine, un tribunal fédéral en Californie a permis à un procès pour violation du droit d’auteur, intenté par des artistes visuels contre DeviantArt, Midjourney, Runway AI, et Stability AI, de se poursuivre. Ces entreprises sont accusées de violation des droits d’auteur, mais dans ce cas, les accusations concernent des images et les résultats générés par ces outils.

Étant donné l’enjeu des parties impliquées et l’ampleur des dommages potentiels, ces procès pourraient occuper les tribunaux pendant de nombreuses années. Même après des verdicts qui seront considérés comme « définitifs », il est probable que des appels soient interjetés, et certaines questions pourraient finalement être portées devant la Cour suprême.

En attendant, les actions de NVIDIA et d’autres sociétés d’IA seront scrutées de près par les spécialistes du droit d’auteur. Cela inclut les récentes accusations relayées par la presse, selon lesquelles NVIDIA, parmi d’autres, aurait utilisé des vidéos et des transcriptions de YouTube pour entraîner leurs modèles d’IA respectifs.

