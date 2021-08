La bibliothèque de l'abbaye de Saint-Gall, en Suisse, abrite environ 160.000 volumes, littéraires et historiques datant du VIIIe siècle. Des textes, tous écrits à la main, dans des langues rarement parlées à l'époque moderne... Leur préservation découle d'un effort de bibliothèques et monastères, du monde entier. Bien qu’ils soient en partie accessible au grand public via le développement de l’imagerie numérique, une quantité inimaginable de documents n'a jamais été lue. D’après les experts, ce serait tout un trésor d'informations qui serait demeuré caché...

Indiana Jones, 2.0

« Nous avons affaire à des documents historiques écrits dans des styles qui sont depuis longtemps passés de mode, remontant à plusieurs siècles, et dans des langues comme le latin, qui ne sont plus que rarement utilisées », a déclaré Walter Scheirer, professeur agrégé Dennis O. Doughty, du Département d'informatique et d'ingénierie de Notre Dame. « Vous pouvez obtenir de belles photos de ces documents, mais ce que nous avons entrepris, c'est d'automatiser la transcription d'une manière qui imite la perception de la page à travers les yeux du lecteur expert et offre une lecture rapide et consultable du texte. »

Ces recherches, publiées dans la revue Transactions on Pattern Analysis and Machine Intelligence de l'Institute of Electrical and Electronics Engineers, Scheirer décrivent l’approche de son équipe : une combinaison de méthodes traditionnelles d'apprentissage automatique et de psychophysique visuelle. Résultat : une nouvelle manière de mesurer des liens entre les stimuli physiques et les phénomènes mentaux, tels que le temps qu'il faut à un lecteur expert pour reconnaître un caractère spécifique, évaluer la qualité de l'écriture manuscrite ou identifier l'utilisation de certaines abréviations.

L'équipe de Scheirer a ainsi étudié des manuscrits latins numérisés, copiés par des moines du cloître de Saint-Gall durant le IXe siècle. Les lecteurs ont d’abord saisi leurs transcriptions manuelles dans une interface logicielle spécialement conçue, tandis que l'équipe de chercheurs mesurait les temps de réaction lors de cette transcription. L'idée étant ici de comprendre quels mots, caractères et passages étaient faciles ou difficiles à déchiffrer.

Scheirer a expliqué que l'inclusion de ce type de données créait une connexion plus cohérente avec le comportement humain, réduisait les erreurs et fournissait une lecture plus précise, et donc plus réaliste du texte.

Analyser la lecture au plus proche

« C'est une stratégie qui n'est généralement pas utilisée dans l'apprentissage automatique », a-t-elle déclaré. « Nous étiquetons les données à travers ces mesures psychophysiques, qui proviennent directement d'études psychologiques de la perception – en prenant des mesures comportementales. Nous informons ensuite le réseau des difficultés courantes dans la perception de ces personnages et pouvons apporter des corrections en fonction de ces mesures. »

« Il y a une différence entre simplement prendre les photos et les lire, et disposer d'un programme pour fournir une lecture consultable », a expliqué Hildegund Müller, professeure agrégée au département des lettres classiques de Notre-Dame. « Si vous considérez les textes utilisés dans cette étude – des manuscrits du IXe siècle – c'est une première étape du Moyen Âge. C'est bien avant l'imprimerie. C'est une époque où une énorme quantité de manuscrits a été produite. Il y a toutes sortes d'informations cachées dans ces manuscrits - des textes non identifiés que personne n'a vus auparavant. »

Ces chercheurs doivent faire face à défis qui, malheureusement, subsistent. Malgré un travail pour améliorer la précision des transcriptions – par exemple concernant des documents endommagés ou incomplets, ou encore la prise en compte des illustrations ou d'autres aspects d'une page, qui pourraient être source de confusion –, tout n'est pas si simple.

« Dans le domaine littéraire, cela pourrait être très utile. Chaque bonne œuvre littéraire est entourée d'une grande quantité de documents historiques, mais là où elle va vraiment être utile, c'est dans la recherche d'archives historiques », a déclaré Müller.

« Il y a un grand besoin de faire progresser les humanités numériques. Quand vous parlez du Moyen Âge et du début des temps modernes, si vous voulez comprendre les détails et les conséquences des événements historiques, vous devez parcourir les documents écrits, et ces textes sont la seule chose que nous ayons. Le problème peut être encore plus grand en dehors du monde occidental. Pensez aux langues qui disparaissent dans des cultures menacées. Il faut d'abord préserver ces œuvres, les rendre accessibles et, à un moment donné, intégrer des traductions pour les intégrer dans des processus culturels toujours en cours — et c’est une course contre la montre. »

