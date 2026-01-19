Un groupe d’auteurs vient d’élargir une action collective déjà engagée contre NVIDIA, accusant le géant des GPU d’avoir sciemment utilisé des millions de livres piratés pour entraîner ses modèles d’intelligence artificielle. Le site spécialisé TorrentFreak en dévoile aujourd’hui les éléments les plus compromettants.

La plainte, initialement déposée début 2024, visait l’utilisation du jeu de données Books3, connu pour regrouper des œuvres protégées issues de bibliothèques clandestines comme Bibliotik. Plusieurs modèles de NVIDIA — parmi lesquels NeMo, Megatron, Retro-48B et InstructRetro — auraient été entraînés à partir de ces corpus. NVIDIA s’était alors défendu en invoquant le fair use, expliquant que les textes n’étaient exploités que comme des « corrélations statistiques », non comme des œuvres destinées à être reproduites.

La nouvelle version de la plainte change toutefois de dimension. Les auteurs citent des emails internes montrant qu’un ingénieur de NVIDIA a directement contacté Anna’s Archive, l’une des plus vastes bibliothèques « shadow » encore accessibles. L’objectif n’était plus seulement d’utiliser un dataset tiers, mais d’obtenir un accès « haut débit » à des millions d’ouvrages piratés afin de les intégrer à l’entraînement de leurs modèles de langage.

Selon ces échanges, Anna’s Archive aurait averti NVIDIA du caractère illégal de ses collections. Malgré cela, l’entreprise aurait validé l’opération en moins d’une semaine, ouvrant ainsi la voie à près de 500 téraoctets de contenus protégés.

L’un des extraits versés au dossier est sans équivoque : « À court de livres, NVIDIA a contacté Anna’s Archive — la plus vaste et la plus audacieuse des bibliothèques clandestines encore en activité — afin d’acquérir ses millions de contenus piratés et de “l’inclure dans les données de pré-entraînement de nos modèles de langage” ».

Si cette approche est confirmée, elle met sérieusement à mal la communication policée de l’industrie de l’IA, qui soutient que l’entraînement de ses modèles relèverait d’une exploitation neutre de données « statistiques ».

Anna’s Archive, créé en 2022 après la fermeture de Z-Library, fonctionne comme un moteur de recherche indexant des millions de livres, articles et documents issus de bibliothèques pirates. Le projet, porté par une équipe anonyme et financé par des dons, a déjà suscité plusieurs actions judiciaires. Récemment, le site a même été suspendu, rendant son accès plus difficile.

Dans ce dossier, NVIDIA continue de s’abriter derrière le fair use américain, répétant que, pour une IA, un livre n’est rien de plus qu’un ensemble de relations mathématiques. Une défense désormais classique chez les acteurs du secteur.

Pour les auteurs requérants, l’affaire dépasse la simple querelle technique. Il s’agit de savoir si la création littéraire peut être absorbée, exploitée et reproduite par des machines sans consentement ni rémunération. Dans cette perspective, la volonté alléguée de NVIDIA d’acheter un accès massif à une bibliothèque pirate ressemble moins à un accident qu’à une stratégie assumée.

Ce nouvel épisode judiciaire s’inscrit dans une tension croissante entre l’industrie technologique et les ayants droit. À mesure que se multiplient les contentieux autour des bases d’entraînement, la question devient centrale : qui finance réellement le savoir dont se nourrissent les intelligences artificielles ?

