Oeuvres indisponibles : Quelle qualité de numérisation dans ReLIRE ?

La Sofia avait organisé la semaine passée une table ronde pour sensibiliser les auteurs à l'ensemble du projet ReLIRE, ou Registre des Livres Indisponibles en Réédition électronique. À force d'articles sur le sujet, il semble qu'Actualité ait cependant plus travaillé à sa publicité que l'ensemble des opérateurs concernés, nous expliquait-on. Soit, eh bien, poursuivons cette mission d'intérêt public.

Petite piqûre de rappel : la numérisation pour les nuls

Dans un premier temps, Régis Habert, chargé des oeuvres indisponibles pour le compte du Cercle de la Librairie avait fait état de deux données, portant sur la qualité des fichiers. Pour les comprendre

il faut décortiquer un chouia le procédé.

Tout livre papier est tout d'abord scanné, pour aboutir à un fichier image - des photographies des pages. À partir de ce document, deux approches :

la première, pour réaliser un PDF avec couche de texte caché, le procédé mis en place par Google Books, et inventé originellement par Adobe, et qui permet de faire de la recherche plein texte

la seconde, pour réaliser un fichier EPUB, format ouvert pour le livre numérique

Dans les deux cas, on a recours à l'OCR, ou Optical Character Recognition, la Reconnaissance optique de caractères. Ce processus est bien entendu automatisé, un logiciel de reconnaissance est alors utilisé, mais il nécessite l'intervention d'un être humain, malgré tout, pour assurer une relecture qui supprimera les erreurs commises par la machine.

Comme l'avait donc expliqué Régis Habert, la Société de projet en charge de ReLIRE s'occupera de numériser les livres dont elle obtiendra les droits d'exploitation. Or, ce dernier avait, au cours de cette table ronde, avancé des chiffres pharaoniques : 99,999 % de qualité éditoriale pour la création de fichiers EPUB et 99,50 % pour la couche de texte cachée des PDF. Intrigué par de tels chiffres, pour le moins inédits, ActuaLitté avait contacté la Sofia qui nous confirmé qu'il y avait une confusion dans les chiffres.

La perfection n'est pas de ce monde, surtout en OCR

Après vérification, voici la réponse définitive de l'organisme :

Cette numérisation sera réalisée, comme cela était indiqué dans la présentation du 30 janvier dernier, dans le respect total des normes de qualité qui seront publiées par la SOFIA dans ses licences d'exploitation, exclusives ou non exclusives.

La numérisation patrimoniale de masse dans le domaine du livre exige de revenir aux versions papier des ouvrages.

Il est alors facile de comprendre que le niveau final de qualité de la reconnaissance de caractères dépendra aussi de la qualité des ouvrages qui seront numérisés (qualité du papier, qualité de l'encre, qualité de la formation des caractères, lisibilité de la typo utilisée…).

La numérisation se fera avec deux formats cibles : l'EPUB et le PDF (pour les documents dont la mise en page est complexe ou dont la qualité typographique se révélera très mauvaise).

Dans les deux cas, la SDP appliquera des niveaux de qualité pour la reconnaissance de caractères (OCR) qui sont ceux utilisés par les professionnels de cette industrie.

Pour la numérisation au format ePub, le niveau de qualité garanti par le prestataire de numérisation sera, a minima, de 99,99%.

On comprend ainsi que 99,99 % est un taux minimum admis, soit 1 caractère erroné maximum tous les 10 000 caractères. Et ce sera normalement moins... sans compter qu'en cas de taux d'erreurs plus élevé, la solution du PDF sera préférée.

Le format PDF, de son côté, est un mode image qui reproduit fidèlement la page du livre papier.

La couche texte cachée qui accompagnera ces fichiers PDF sera proposée avec un niveau de qualité de 98,50%, qui permet d'effectuer des recherches.

On descendait donc d'un cran, en perdant 0,009 % de qualité éditoriale, mais les prétentions restaient faramineuses. Surtout qu'Alain Absire, président de la Sofia, à l'occasion de cette réunion, avait bien précisé : « Il n'y a pas de relecture, puisqu'il n'y a pas d'épreuves. » En effet, pour la numérisation des ouvrages, et suite à l'OCR, « la relecture humaine a un coût, qui aujourd'hui n'est pas prévu » dans le cadre de ReLIRE.

De quoi sérieusement interroger le respect du droit moral. « Une erreur par page, sur un livre numérisé qui a déjà été édité, et qui a donc déjà été corrigé a priori (au XXe siècle, il y avait encore des correcteurs chez les éditeurs) ! Donc en fait, leur numérisation ne va pas laisser un mot erroné par page, mais va ajouter un mot erroné par page depuis un livre qui n'en contenait pas a priori », notait un éditeur numérique.

"99,99 % de qualité éditoriale ne sera jamais atteint"

Pour en avoir le coeur net, nous avons sollicité un spécialiste de la numérisation d'oeuvres, qui se réjouit « que la Sofia adopte une magnifique promesse de qualité dans la numérisation. Certains prestataires garantissent en effet un pareil résultat… mais sans pour autant le livrer au client. En réalité, 99,99 % de qualité éditoriale ne sera jamais atteint ».

En effet, la Sofia prend bien soin de préciser qu'en fonction de la qualité des ouvrages, on optera pour le format EPUB ou PDF. Or, la numérisation s'effectuera bien à partir des livres présents au dépôt légal de la BnF, des livres qui auront pour certains plusieurs dizaines d'années, dont le papier aura vieilli, l'encre aura pu s'estomper, même partiellement et surtout, qui n'ont pas été religieusement stockés dans des conditions optimums de conservation. En somme, rien à voir avec la numérisation d'un livre de poche sorti la semaine passée en librairie…

Erreurs de numérisation Google Books

Tu veux mon doigt, la suite...

Il existe aujourd'hui des solutions technologiques permettant, avec des solutions automatisées entièrement, de parvenir à réduire les erreurs des OCR : on va alors pratiquer sur un ouvrage plusieurs reconnaissances de caractères, en s'appuyant sur le fait que toutes les numérisations contiennent des erreurs, mais toutes ne contiennent pas les mêmes. Avec un modèle de recoupement, il sera alors possible d'éliminer plus d'erreurs encore.

Selon nos informations, si l'on peut parvenir avec un OCR simple à du 99 % de qualité, et frôler les 99,9 % avec un système de double, voire triple recoupement, le chiffre de 99,99 % est simplement surréaliste. « Le triple OCR peut parvenir à une qualité de 99,99 %, mais cela se fera avec un ouvrage uniquement, choisi et pour lequel différentes optimisations dans le traitement du texte ont été mises en place. Un tel rendu est impensable avec un spectre large de livres, parce que les optimisations nécessitent de cerner un ouvrage spécifique », nous précise-t-on.

10.000 titres sous les scanners par semaine ? La blague...

Alors, quand on apprend que ce sont 10.000 livres qui devraient être numérisés chaque semaine, pour parvenir au ratio des 500.000 annuels, on sourit. D'autant plus que, pour atteindre les 99,99 %, une fois encore, il faut prendre en compte un coût réel, supérieur à la numérisation simple.

À ce jour, on sait que 230.000 oeuvres seront numérisées, et que le montant de l'opération est chiffré à 30 millions €. Difficile de savoir si le temps et l'attention nécessaire, de même que les optimisations propres à chaque ouvrage, pour atteindre les 99,99 % seront mises en place pour chacun des titres, et surtout, si le montant indiqué couvrirait ces frais. « Personne n'investirait dans une numérisation avec un résultat de 99,99 % pour ces livres », assure un autre spécialiste.

Pour ce qui est de la couche de texte cachée, le taux avancé de 98,50 % est en revanche, tout à fait crédible - et assez largement pratiqué. « C'est une qualité admise comme suffisante, puisqu'il de fichier image que l'on va lire, et que le texte caché n'est là que pour assurer des recherches plein texte. Bien évidemment, si l'on a besoin de faire des copier-coller de passages entiers, cela n'est pas extraordinaire, mais après tout, un avertissement signale bien que le texte est issu d'un processus de numérisation et de reconnaissance de caractères, justement à des fins de recherche », souligne-t-on.

Le piège, en revanche, est que souvent - c'est par exemple le cas pour les livres numérisés de Gallica - le cahier des charges ne prend pas en compte certains éléments : ainsi, la ponctuation ou les chiffres ne font pas partie des caractères comptabilisés pour arriver à 98,50 % de réussite. Et pour cause, plaisante notre interlocuteur, « vous avez souvent fait une recherche sur le nombre de virgules contenues dans un texte » ? Effectivement. Mais derrière la boutade, certains riront jaune.

Reste qu'une nouvelle réunion organisée par la Sofia, et se déroulant ce soir au Centre National du Livre à partir de 18h30 permettra peut-être d'éclaircir ces différents points, et d'expliquer comment la numérisation pratiquée par la Société de Projet permettra d'atteindre des résultats… impossibles. Comme on a l'habitude de répondre dans le monde informatique : «Le possible est déjà fait, l'impossible est en cours, pour les miracles prévoir un délai !»

Google Books OCR Conversion! from brainout on Vimeo.

Oeuvres indisponibles : Quelle qualité de numérisation dans ReLIRE ?

Commenter cet article

Le manuscrit de Mort à crédit de Céline intègre les collections de la BnF

Des journaux numérisés mettent la Révolution française en Une

Mort de Jean-Philippe Legois, historien et archiviste impliqué

Comment une pierre changea l'écriture du Prix Nobel José Saramago

Les archives de Henri Focillon intègrent les collections de l’INHA

Quatre nouveaux manuscrits de Rimbaud Illuminent Charleville-Mézières

Pays-Bas : une capsule temporelle raconte la bataille de Waterloo

La lettre d'un seigneur médiéval japonais dévoile ses secrets

Satisfaction : la tapisserie de Bayeux d'un Rolling Stone finit en France

Vol : 43 ans après, des lettres de Baudelaire et Maupassant rendues

Gallicarama, pour créer un récit avec les ressources de Gallica

Livres ou Peste, une histoire européenne des senteurs et autres relents

Pourquoi tout le monde déteste Henry Symeonis ?

Les ombres du passé : L'affaire des faux Journaux d'Hitler

Bientôt, une bibliothèque en ligne sur l'histoire des jeux vidéo

Darwin : Les précieux brouillons de L'Origine des espèces réunis

Compiègne : la bibliothèque de Napoléon, amoureux des livres, rénovée

Un Livre des morts de 3500 ans découvert en Egypte

Les Archives diplomatiques lancent leur plateforme numérique

En Turquie, une langue indo-européenne inconnue se délie

Bien avant le cidre, le vin normand au Moyen Âge

Une égyptologue révèle l'un des textes les plus anciens de l'humanité

Bibliothèque du Congrès : numériser des fragments de la vie juive

Israël : la bibliothèque nationale accueille de nouvelles cartes rares

Mexique : une lettre du conquistador Hernán Cortés retrouvée par le FBI

Les manuscrits du Mont Saint-Michel. Partie 2. Une histoire mouvementée

400 ans après, des pages censurées de l'histoire d'Élisabeth Ire révélées

Redécouvert, un paravent chinois s'offre une seconde vie

À Cordoue, la poésie de Virgile reprend vie

Une partie de la mémoire audiovisuelle de l'art dramatique à la BnF

37 chefs d'accusation contre Trump, pour sa gestion des archives

Quatre décennies pour déchiffrer une singulière écriture

Les dessins de la rafle du Vel d’Hiv de Cabu, à nouveau exposés

Avant les JO, une Grande Collecte des archives du sport

États-Unis : 6,5 millions $ de subventions pour des archives historiques

Les Essais de Montaigne entrent au patrimoine de l'Unesco

Bibliothèque de Léopold Sédar Senghor : le Sénégal intervient

Une couverture d'Astérix et Obélix vendue 300 000 €

La bibliothèque de Léopold Sédar Senghor, bientôt achetée par le Sénégal ?

De Ronsard à Montaigne : une collection du XVIe siècle aux enchères

Comics : Superman établit un nouveau record pour sa première apparition

Une bibliothèque maçonnique vendue aux enchères

Lyon : vente de manuscrits, incunables et Imprimés de la Renaissance

Un mystérieux manuscrit de L'Étranger bientôt vendu aux enchères

Une lettre inédite de Lord Byron enflamme les enchères

Un trésor d’André Breton, détenu par Paul Éluard, aux enchères

Un manuscrit à 1,6 million € rejoint les collections de la BnF

La mémoire dans la peau : un catalogue de tatouages du XIXe siècle

Surréalisme : l'intégralité des manuscrits d'André Breton sur Gallica

Paris : le marché du livre de la Halle René Froment repart pour 3 ans

Toute la bibliothèque de Charles Darwin exposée en ligne

1,2 million € pour le deuxième livre de voyage le plus cher du monde

Martine et les Shadoks aux enchères

L'IA décode un papyrus carbonisé par l'éruption du Vésuve

À Bordeaux, un trésor médiéval “velu” s'expose

Le “cinquième Beatles” et son roman inachevé sur John Lennon

Un professeur d'histoire dépoussière la plus vieille carte de Normandie

En 1666, le premier roman de science-fiction écrit par une femme

La ville d'Orléans acquiert un manuscrit du 15e siècle

Le tapuscrit du premier roman de John Steinbeck aux enchères

Record : un exemplaire du premier Spider-Man vendu 1,3 million €

Des Pokemon à attraper, enchères et en os

Hortus Eystettensis : "Le plus grand livre botanique du monde"

La “Joconde des manuscrits” restaurée avant exposition

Quelle commission pour restituer les livres spoliés par les nazis ?

"La somme la plus ambitieuse de la cartographie" disponible gratuitement en ligne

Féministe, surréaliste, futuriste : le domaine public en 2024

Elle est retrouvée. Quoi ? L’Eternité. C'est 702 000 €

Un “des plus beaux livres du monde” retrouvé dans les ordures

Un Mésopotamien met 0 étoile à son fournisseur de cuivre

Cambriolage en bibliothèque : les vols de Pouchkine, ”très exagérés”

La littérature russe a la cote chez les bandits