Présenté comme l’un des corpus les plus vastes jamais constitués à partir de manuscrits médiévaux, CoMMA rassemble environ 3,3 milliards de tokens, extraits de plus de 32 700 manuscrits numérisés, en latin et en ancien français. Un ensemble d’une ampleur inédite, issu non pas d’éditions savantes, mais de textes bruts, non normalisés, produits par reconnaissance automatique de l’écriture manuscrite. Une différence décisive.

Un choix éditorial fort : préserver l’irrégularité

Là où nombre de corpus historiques privilégient la correction, l’harmonisation, voire la modernisation linguistique, CoMMA revendique une autre philosophie. Celle du respect absolu de la matérialité textuelle. Abréviations, graphies fluctuantes, erreurs de copie ou accidents de mise en page : tout est conservé.

Comme le résume la documentation scientifique du projet, l’objectif est de fournir « un matériau textuel au plus près des sources, quitte à en assumer les aspérités » (« un matériau textuel au plus près des sources, quitte à en assumer les aspérités »). Un parti pris qui rapproche CoMMA non d’une bibliothèque idéale, mais d’un immense chantier archéologique.

Une infrastructure invisible mais décisive

Derrière cette masse de données se cache une chaîne de traitement lourde, largement automatisée. Les images des manuscrits ont été collectées via le protocole IIIF, devenu en quelques années un standard international pour la diffusion des collections patrimoniales.

La reconnaissance automatique du texte manuscrit (ATR) s’appuie sur des modèles d’apprentissage profond entraînés sur des écritures médiévales extrêmement variées. Le résultat n’est pas parfait — et le projet ne le prétend pas. Le taux moyen d’erreur par caractère (CER) s’établit autour de 9,7 %, un chiffre cohérent avec l’état de l’art dans ce domaine complexe.

Les responsables du corpus soulignent eux-mêmes que « la valeur du corpus ne réside pas dans une illusion de perfection, mais dans son échelle et sa diversité » (« la valeur du corpus ne réside pas dans une illusion de perfection, mais dans son échelle et sa diversité »).

Un outil pour linguistes, mais pas seulement

À qui s’adresse CoMMA ? La réponse dépasse largement le cercle des médiévistes.

Les linguistes y trouvent un terrain exceptionnel pour étudier l’évolution morphologique et syntaxique du latin tardif ou de l’ancien français. Les chercheurs en humanités numériques peuvent tester, à grande échelle, des méthodes d’annotation ou de fouille de textes.

Quant aux spécialistes de l’intelligence artificielle, ils disposent enfin d’un corpus massif pour pré-entraîner des modèles de langue sur des états anciens du langage.

Cette transversalité est au cœur du projet. Selon ses concepteurs, CoMMA doit permettre « de faire dialoguer des communautés de recherche qui, jusqu’ici, travaillaient souvent en parallèle » (« de faire dialoguer des communautés de recherche qui, jusqu’ici, travaillaient souvent en parallèle »).

Une nouvelle étape dans l’histoire de l’édition scientifique

Il serait toutefois réducteur de voir dans CoMMA un simple exploit technique. Le corpus interroge, plus profondément, notre rapport au texte médiéval.

Faut-il corriger pour comprendre ? Normaliser pour transmettre ? Ou accepter l’instabilité comme donnée historique fondamentale ?

En mettant à disposition un matériau imparfait mais massif, CoMMA déplace la responsabilité critique vers l’utilisateur. Une démarche exigeante, qui rappelle que la médiation numérique n’abolit pas le travail intellectuel — elle le reconfigure.

Reste une question, incontournable : celle de l’usage. Un corpus de cette taille peut éclairer la recherche, mais aussi produire des analyses hâtives si ses limites sont ignorées. Les auteurs du projet insistent sur ce point, appelant à une lecture critique des données et à une transparence méthodologique constante.

À l’heure où les humanités numériques gagnent en visibilité, CoMMA apparaît ainsi comme un jalon important. Non comme une solution miracle, mais comme une invitation à penser autrement la transmission des textes anciens, à l’ère des machines. Le catalogue est à cette adresse.

Illustration : Manuscrits numérisés de la Bibliothèque municipale de Toulouse. Manuscrits. Bible latine, avec les préfaces de S. Jérôme. (Suivi de) Interpretatio nominum Hebraicorum Bède le Vénérable (0673?-0735). Auteur présumé du texte

Par Clément Solym

Contact : cs@actualitte.com