Le livre n’a jamais autant laissé de traces, et pourtant il demeure difficile à saisir dans son ampleur réelle. Entre bibliothèques patrimoniales, plateformes de lecteurs et archives parallèles, la littérature circule désormais dans un paysage éclaté, presque illisible à l’œil nu. MajinBook surgit à cet endroit précis : là où la culture devient donnée, où la bibliographie se change en cartographie, et où compter les livres revient déjà à raconter le monde.
Compter la littérature mondiale relevait jusqu’ici du fantasme de laboratoire. Trop de textes, trop d’éditions, trop de métadonnées incomplètes, trop de corpus déformés par les seuls fonds patrimoniaux numérisés.
Avec MajinBook, deux chercheurs, Antoine Mazières et Thierry Poibeau, proposent un autre outillage : un catalogue ouvert qui relie des métadonnées issues de Library Genesis et de Z-Library à des données bibliographiques structurées de Goodreads, afin de constituer un corpus exploitable pour les sciences sociales computationnelles et les humanités numériques. La version décrite dans l’article déposé sur arXiv recense plus de 539.000 références de livres en langue anglaise, enrichies par les dates de première publication, les genres, les notes et les volumes d’avis.
Le projet ne se contente pas d’additionner des fichiers. Il vise un vieux point aveugle des études quantitatives sur le livre : l’écart entre la masse réelle des œuvres lues, téléchargées ou commentées et les corpus classiques mobilisés par la recherche. Les auteurs expliquent que leur méthode privilégie les fichiers EPUB nativement numériques, donc plus facilement lisibles par machine, et qu’elle cherche précisément à corriger certains biais des corpus traditionnels comme HathiTrust.
Derrière la prouesse technique, l’enjeu est simple : disposer d’un matériau plus proche de la circulation contemporaine des textes, et pas seulement du patrimoine déjà canonisé.
Le noyau principal de MajinBook compte exactement 539.530 notices en anglais. Le dépôt public ajoute trois jeux secondaires : 47.960 références en français, 35.559 en allemand et 30.169 en espagnol. Le schéma de données révèle l’ambition du projet.
Chaque notice peut intégrer l’année de première publication, les auteurs, jusqu’à dix genres, le nombre d’évaluations, le nombre de critiques, une note moyenne, ainsi que des identifiants renvoyant vers Z-Library ou LibGen. La plage chronologique du corpus anglais va de 1456 à 2024. Nous ne sommes donc plus dans un simple relevé de best-sellers numériques, mais dans une infrastructure bibliographique conçue pour suivre des siècles de production éditoriale.
Cette architecture dit beaucoup de l’époque. Depuis une quinzaine d’années, les humanités numériques rêvent de lire à grande échelle : repérer des genres, suivre des courbes de publication, mesurer des réputations, cartographier des circulations. Mais ces travaux se heurtent souvent à des jeux de données lacunaires, juridiquement fermés ou socialement biaisés. MajinBook tente de répondre à ces trois obstacles à la fois.
Les créateurs évaluent la précision de leur stratégie d’appariement, publier l’ensemble des données sous-jacentes et discuter la possibilité juridique du projet au regard des cadres américains et européens sur le text and data mining pour la recherche. C’est là que le projet devient politique autant que technique. Il traite les bibliothèques parallèles non comme une zone honteuse à ignorer, mais comme un fait documentaire massif à encadrer méthodiquement.
Le point fort du catalogue réside aussi dans l’ajout d’indicateurs de réception. Goodreads apporte les notes et les avis, autrement dit une couche de popularité et d’appréciation sociale qu’on ne trouve pas dans les grands corpus patrimoniaux. Cela ne règle pas tout. Une plateforme de lecteurs produit ses propres biais culturels, linguistiques et commerciaux.
Mais elle offre un observatoire bien plus proche des usages effectifs que le seul dépôt légal numérisé. En reliant ces traces de lecture à des archives massives de livres numériques, MajinBook ouvre une voie nouvelle pour étudier la littérature mondiale comme un espace à la fois éditorial, technique et social.
Il faut enfin mesurer ce que ce projet change dans le regard porté sur le livre. Longtemps, l’analyse quantitative s’est contentée de compter des titres ou des auteurs. Ici, elle s’attaque à une bibliothèque mondiale mouvante, traversée par les traductions, les rééditions, les genres et les préférences déclarées des lecteurs.
MajinBook ne remplace ni la critique, ni l’histoire littéraire, ni l’enquête éditoriale. Il fournit autre chose : une carte. Et, dans le désordre numérique actuel, disposer d’une carte de 539 530 livres tient déjà de l’événement scientifique.
Crédits photo : ActuaLitté, CC BY SA 4.0
Par Nicolas Gary
Contact : ng@actualitte.com
Commenter cet article