Pour les utilisateurs habitués à l’accès fluide et gratuit des millions de documents numérisés disponibles en ligne, cette case à cocher peut apparaître presque banale. Pourtant, derrière ce dispositif technique se joue une tension réelle : comment concilier l’ouverture maximale d’une bibliothèque universelle avec la nécessité de limiter l’impact des activités automatisées — scrapers, scripts ou agents d’IA — qui, en multipliant les requêtes, « stressent » les serveurs et menacent la continuité du service public ?

La BnF justifie cette décision par une augmentation significative des requêtes automatisées. Scripts de récupération massive, scrapers ou agents liés à l’entraînement de modèles d’intelligence artificielle sollicitent intensément les serveurs, au risque de dégrader l’accès pour les lecteurs humains.

Dans son communiqué, l’institution explique vouloir « préserver la qualité de service pour l’ensemble des usagers », tout en maintenant un accès gratuit et sans inscription aux collections numérisées.

Le choix d’un CAPTCHA limité — déclenché uniquement lors de la première recherche de la journée — se veut un compromis. Il ne s’agit pas de restreindre l’usage académique ou la curiosité individuelle, mais de contenir des pratiques automatisées qui contournent les règles implicites de consultation. Car Gallica, avec ses millions de livres, journaux, manuscrits et images patrimoniales, est devenue une cible privilégiée pour les collectes massives de données.

Cette situation n’est pas propre à la France. Dans la presse anglo-saxonne comme dans les médias nordiques, plusieurs bibliothèques et institutions culturelles alertent depuis des mois sur la pression exercée par les bots et les systèmes d’IA sur les ressources publiques en ligne.

Des responsables suédois évoquent ainsi une « charge invisible » pesant sur les infrastructures culturelles ouvertes, tandis que des analyses britanniques soulignent l’inefficacité croissante des mécanismes classiques comme le fichier robots.txt face aux usages automatisés.

Derrière ce CAPTCHA se dessine donc une question plus large : comment garantir l’ouverture des savoirs à l’ère de l’extraction massive de données ? Pour Gallica, la réponse passe par une protection minimale, mais assumée. Un geste technique modeste, certes, mais révélateur d’un équilibre de plus en plus délicat entre mission patrimoniale, contraintes techniques et nouveaux usages numériques.

Le CAPTCHA — acronyme de Completely Automated Public Turing test to tell Computers and Humans Apart — n’est pas nouveau dans l’univers du web. Et découle de la numérisation des œuvres par le service Google Books : tout internaute qui s’est prêté au jeu de l’identification de lettres a ainsi contribué à la reconnaissance de caractère, totalement à son insu.

Sauf que cette adoption par une bibliothèque patrimoniale souligne combien le numérique patrimonial n’est plus à l’abri des mêmes tensions que les plateformes commerciales. Il s’agit d’un premier filtre, discret, mais significatif, pour distinguer un lecteur humain d’un robot qui aspirerait massivement des documents, comme le relate une analyse des pratiques de scripts automatisés qui « scrapent » systématiquement des contenus en ligne.

