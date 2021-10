Précédé par la promesse de révolutionner la recherche au sein d'un corpus de journaux anciens, l'algorithme développé par l'université de Buffalo releverait et classerait les noms propres, par ordre d'importance et de fréquence d'apparition.

L'algorithme serait particulièrement efficace au sein de textes numérisés à l'aide d'une technologie de reconnaissance des caractères OCR. « C'est un fait connu : quand un logiciel OCR est utilisé, le texte est souvent malmené », souligne Haimonti Dutta, professeure adjointe au Département des Sciences et Systèmes de Gestion de l'université.

Or, l'outil proposé serait en mesure de reconnaitre les noms propres d'une manière efficace, même dans le cadre d'un texte numérisé et converti avec un outil OCR, selon l'expérience menée par l'université. Avec un texte « nettoyé » manuellement et un autre simplement converti de manière informatique, les résultats seraient sensiblement les mêmes.

L'algorithme s'appuie sur un modèle statistique assez poussé, permettant d'établir le classement d'importance à partir d'un certain nombre de critères : l'éventuel titre précédant le nom, le contexte de l'utilisation du nom propre, sa fréquence dans un article et au sein du corpus...

L'université a notamment travaillé avec le réseau des bibliothèques de New York, la New York Public Library (NYPL), en utilisant plus de 14.000 articles publiés par le journal new-yorkais The Sun entre novembre et décembre 1894 et scannés par l'institution.

Ce robot lecteur de presse ancienne a déjà permis d'établir le rôle de quelques personnalités afro-américaines dans le combat pour l'abolition de l'esclavage au cours de la Guerre civile américaine, selon Haimonti Dutta.

Photographie : illustration, faungg's photos, CC BY-ND 2.0