Il doit notamment identifier les principales sources mobilisées, dans un souci de transparence et pour permettre aux ayants droit d’exercer plus facilement leurs droits. Décrit comme un outil simple, homogène et efficace, il devra être rendu public.

Les modèles d’intelligence artificielle à usage général reposent sur l’analyse de vastes volumes de données. Pourtant, très peu d’informations sont actuellement disponibles sur la provenance de ces données. Le résumé exigé apportera une vue d’ensemble des corpus employés, répertoriera les principales sources utilisées pour l’entraînement, et précisera les autres types de données intégrées.

Cet encadrement doit ainsi faciliter les démarches visant à contester un usage illicite ou à demander réparation. Il devient ainsi possible, en théorie, de savoir si un modèle d’IA a été entraîné à partir de livres, d’articles, d’œuvres audiovisuelles ou de contenus en ligne protégés, et surtout, dans quelles conditions cela a été fait.

Certains regretteront néanmoins que l’opt-out - le droit de refus explicite des créateurs - reste privilégié à l’opt-in, qui imposerait leur consentement préalable. Mais peut-être que cette nouvelle obligation renforcera le respect du principe d’opt-out.

Cette initiative s’inscrit dans le cadre de la mise en œuvre du règlement européen sur l’intelligence artificielle, qui entrera en vigueur le 2 août 2025.

Une mise à jour semestrielle exigée

En détail, le modèle type publié par la Commission européenne comprend trois sections principales. La première porte sur les informations générales : elle identifie le fournisseur et le modèle concerné, précise les types de contenus utilisés pour l’entraînement (texte, image, vidéo, audio), les volumes estimés pour chaque modalité et les caractéristiques générales du corpus.

La deuxième section recense les sources de données mobilisées, en distinguant les jeux de données publics (tels que Common Crawl, Wikipedia ou LAION), les jeux de données privés, les contenus extraits automatiquement de sites web (avec l’indication des noms de domaine, des périodes de collecte et des outils utilisés), les données issues des interactions utilisateurs ainsi que les données générées artificiellement.

Enfin, la troisième section est consacrée aux aspects liés au traitement des données, notamment la suppression de contenus illicites, le respect du droit d’auteur et la description des modalités de collecte issues des services proposés aux utilisateurs. Si un modèle a été entraîné à partir d’interactions avec les utilisateurs, le fournisseur devra le signaler et décrire les services concernés, sans pour autant divulguer d’informations personnelles. Le template impose ainsi une transparence sur le périmètre de collecte, sans exiger la publication de données sensibles.

Ce résumé devra être publié sur le site officiel du fournisseur de manière visible et accessible, avec mention claire du modèle (et de la version) concerné. Il devra également être disponible sur tous les canaux de diffusion du modèle. Il devra être actualisé au minimum tous les six mois, ou plus tôt si de nouvelles données d’entraînement modifient sensiblement son contenu. En cas de réutilisation ou de modification d’un modèle existant par un tiers, seule la partie modifiée devra faire l’objet d’un nouveau résumé, accompagné d’un lien vers le modèle d’origine.

Ce modèle standard a été élaboré à la suite d’une consultation publique menée entre juillet et septembre 2024, ayant recueilli plus de 430 contributions, dont 111 avis détaillés émanant de développeurs, chercheurs, organisations de défense des droits, institutions publiques et parlementaires (notamment le groupe IMCO-LIBE).

Il vient compléter Le Code de conduite sur les modèles d’IA à finalité générale (GPAI), présenté le 10 juillet 2025, dont l’adhésion demeure volontaire - à la différence de ce modèle, dont l’utilisation est rendue obligatoire par l’AI Act. Le modèle complète par ailleurs les lignes directrices sur l'application des règles applicables aux IAGP, publiées le 18 juillet.

Des sanctions jusqu'à 3 % du chiffre d’affaires mondial

Les obligations imposées aux fournisseurs de modèles d’intelligence artificielle à usage général (IAGP) concernent plusieurs volets. D’abord, ils doivent transmettre des informations précises aux développeurs d’IA qui intègrent leurs modèles, afin de garantir une utilisation conforme aux règles. Ils doivent également respecter pleinement le droit européen, notamment en matière de propriété intellectuelle, et adopter des politiques internes visant à prévenir les dérives potentielles liées à leurs modèles (désinformation, atteintes aux droits fondamentaux, etc.).

Certains modèles publiés sous licence libre et open source peuvent être partiellement exemptés de ces obligations, à condition de satisfaire à des critères stricts de transparence.

L’entrée en application effective des contrôles et sanctions est prévue pour août 2026. Toutefois, une période transitoire s’étend jusqu’en août 2027 pour les modèles déjà commercialisés avant la mise en vigueur des règles. Ce calendrier vise à laisser aux acteurs du secteur le temps nécessaire pour se mettre en conformité.

En cas de non-respect, les sanctions peuvent atteindre 15 millions d’euros ou 3 % du chiffre d’affaires mondial du fournisseur, à compter du 2 août 2026. Si certaines informations sont impossibles à fournir malgré des efforts raisonnables (ex. : sources anciennes, données indisponibles), le fournisseur devra l’indiquer et justifier clairement les lacunes dans le résumé publié.

Le modèle est disponible en téléchargement pour les fournisseurs concernés.

En parallèle, La Maison-Blanche a dévoilé, le 23 juillet 2025, son plan d’action sur l’intelligence artificielle, axé sur l’innovation, la souveraineté technologique et la dérégulation. Le document exclut toute mention du droit d’auteur, pourtant central dans les débats sur l’entraînement des modèles IA à partir d’œuvres protégées.

Fidèle à sa ligne anti-DEI, l’administration Trump prévoit la suppression des exigences liées aux biais, à la diversité ou au climat. Le plan promeut aussi les modèles open access, utiles aux institutions publiques. Le limogeage contesté de Shira Perlmutter, ex-directrice du Copyright Office, illustre les tensions croissantes entre innovation et protection des droits.

