Gallica est inauguré en octobre 1997 avec des textes et des images du XIXe siècle francophone, « siècle de l’édition et de la presse moderne, siècle du roman mais aussi des grandes synthèses historiques et philosophiques, siècle scientifique et technique ». Gallica élargit ensuite son champ d’action et devient rapidement l’une des grandes bibliothèques numériques mondiales.
À l’époque, en 1997 donc, le serveur de Gallica stocke 2500 livres numérisés en mode image complétés par les 250 livres numérisés en mode texte de la base Frantext de l’INaLF (Institut national de la langue française).
Classés par discipline, ces livres sont complétés par une chronologie du XIXe siècle et des synthèses sur les grands courants en histoire, sciences politiques, droit, économie, littérature, philosophie, sciences et histoire des sciences.
Le site propose aussi un échantillon de la future iconothèque numérique, à savoir le fonds du photographe Eugène Atget, une sélection de documents sur l’écrivain Pierre Loti, une collection d’images de l’École nationale des ponts et chaussées - ces images ayant trait aux grands travaux de la révolution industrielle en France - et enfin un choix de livres illustrés de la bibliothèque du Musée de l’Homme.
Fin 1997, Gallica se considère moins comme une banque de documents numérisés que comme un « laboratoire dont l’objet est d’évaluer les conditions d’accès et de consultation à distance des documents numériques ». Le but est d’expérimenter la navigation dans les collections, en permettant le libre parcours du chercheur ou du lecteur curieux.
Début 1998, Gallica annonce 100.000 volumes et 300.000 images pour la fin 1999. Sur les 100.000 volumes prévus, qui représenteraient 30 millions de pages numérisées, plus du tiers concernerait le XIXe siècle.
Quant aux 300.000 images fixes, la moitié viendrait des départements spécialisés de la BnF (Estampes et photographie, Manuscrits, Arts du spectacle, Monnaies et médailles, etc.), et l’autre moitié de collections d’établissements publics (musées et bibliothèques, Documentation française, École nationale des ponts et chaussées, Institut Pasteur, Observatoire de Paris, etc.) ou privés (agences de presse dont Magnum, l’Agence France-Presse, Sygma, Rapho, etc.).
En mai 1998, la BnF revoit ses espérances à la baisse et modifie quelque peu ses orientations premières. Jérôme Strazzulla, journaliste au quotidien Le Figaro, explique dans un article du 3 juin 1998 que la BnF est passée « d’une espérance universaliste, encyclopédique, à la nécessité de choix éditoriaux pointus ».
Dans le même article, le président de la BnF, Jean-Pierre Angremy, rapporte la décision du comité éditorial de Gallica : « Nous avons décidé d’abandonner l’idée d’un vaste corpus encyclopédique de cent mille livres, auquel on pourrait sans cesse reprocher des trous. Nous nous orientons aujourd’hui vers des corpus thématiques, aussi complets que possibles, mais plus restreints. (...) Nous cherchons à répondre, en priorité, aux demandes des chercheurs et des lecteurs. »
Cinq ans plus tard, en 2003, Gallica rassemble 70.000 ouvrages et 80.000 images allant du Moyen-Âge au début du XXe siècle, tous documents libres de droits.
Mais la numérisation en mode image n’autorise pas la recherche textuelle alors que Gallica se trouve être la plus grande bibliothèque numérique francophone en nombre de titres disponibles en ligne.
La recherche textuelle est toutefois possible dans les tables des matières, les sommaires et les légendes des corpus iconographiques, qui sont numérisés en mode texte.
Seule une petite collection de livres (1120 livres en février 2004) est intégralement numérisée en mode texte, celle de la base Frantext, intégrée à Gallica.
Tous problèmes auxquels la BnF remédie au fil des mois, avec une navigation plus aisée et la conversion progressive des livres du mode image au mode texte grâce à un logiciel OCR (Optical Character Recognition), avec possibilité donc de recherche textuelle.
En février 2005, Gallica compte 76.000 ouvrages. À la même date, la BnF annonce la mise en ligne prochaine (entre 2006 et 2009) de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages.
Début 2006, les premiers journaux disponibles en ligne sont les quotidiens Le Figaro (fondé en 1826), La Croix (fondé en 1883), L’Humanité (fondé en 1904) et Le Temps (fondé en 1861 et disparu en 1942).
En mars 2010, Gallica franchit la barre du million de documents -- livres, manuscrits, cartes, images, périodiques (presse et revues), fichiers sonores (paroles et musiques) et partitions musicales -- dont la plupart sont accessibles gratuitement sur un site dont l’interface désormais quadrilingue (français, anglais, espagnol, portugais) ne cesse de s’améliorer au fil des ans.
Si les documents sont logiquement en langue française dans leur très grande majorité, on y trouve aussi des documents en anglais, en italien, en allemand, en latin ou en grec selon les disciplines.
La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut feuilleter le livre à l’écran. La version informatique est le fac-similé numérique de la version imprimée.
C’est la méthode employée à la fin des années 1990 pour les programmes de numérisation à grande échelle, y compris pour Gallica. Ne sont numérisés en mode texte que les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.
Pourquoi ne pas tout numériser en mode texte ? La BnF répond en 2000 sur le site de Gallica : « Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne. »
Dans les années qui suivent, Gallica convertira toutefois nombre de ses livres du mode image au mode texte pour permettre les recherches textuelles.
La numérisation en mode texte consiste à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR. La version texte ne conserve pas la présentation originale du livre ou de la page. Le livre devient un texte, à savoir un ensemble de caractères apparaissant en continu à l’écran.
Du fait du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois préférable, puisqu’il permet l’indexation, la recherche textuelle, l’analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc.
C’est la méthode utilisée par exemple par le Projet Gutenberg, qui fête ses 50 ans bientôt et qui propose aujourd’hui la plus grande collection de livres numériques au format texte, avec des livres relus et corrigés à deux reprises par des milliers de volontaires pour être fiables à 99,95 % par rapport à la version imprimée.
Concepteur du logiciel Mot@mot, un logiciel de remise en page des fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation.
Il explique en janvier 2001 dans un entretien par courriel : « Le mode image permet d’avancer vite et à très faible coût. C’est important, car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions : la numérisation du patrimoine a pour but de faciliter l’accès aux œuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres.
Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droits ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas.
Les deux modes ont aussi des statuts assez différents : en mode texte ça peut être une nouvelle édition d’une œuvre, en mode image c’est une sorte d’“édition d’édition”, grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire. »
Dossier - Le livre numérique fête ses 50 ans : un anniversaire, tout en histoire
Commenter cet article