Quand le livre croise l'algorithme : Tamis, la révolution des métadonnées

Gilles Herman, directeur des éditions Septentrion, basées à Québec, compte parmi les premières maisons à avoir exploité internet comme vitrine de son catalogue. « Notre premier site web est apparu en 1995, et nous étions les seuls à disposer d’un moteur de recherche interne aux livres, pour mettre en avant le contenu ! »

Enrichir la description d'un livre, par le livre

Utilisant l’API gratuite de De Marque, pour mettre en avant la table des matières, la maison « cherche depuis longtemps comment rendre justice à notre catalogue ». Et en parallèle, la question des métadonnées se pose : comment mieux exploiter les informations que contient un livre pour enrichir ces dernières ?

Bénéficiant d’un soutien financier du Conseil des Arts du Québec – programme orienté vers la stratégie numérique pour l’innovation –, l’éditeur sollicite alors Christian Roy, fondateur de Brix Labs (société de consulting) et Clément Laberge, conseiller numérique.

Le projet s’enclenche, fort d’un budget de 75.000 $ CA. « Nous sommes entrés de plain pied dans la Recherche et Développement, avec une question simple : comment ajouter le contenu des œuvres elles-mêmes pour faire la présentation ? » L’enjeu est connu : le travail sur les métadonnées est souvent opéré sans que le temps nécessaire soit pris.

« Les éditeurs ne sont pas non plus formés à cela ni des spécialistes de la bibliothéconomie », note Gilles Herman. Or, tout comme un bibliothécaire, l’éditeur souhaite faire découvrir son catalogue, mais également le vendre.

Puiser aux algorithmes, pour trouver du nouveau

La perspective de créer des algorithmes dédiés est rapidement écartée : plutôt puiser dans ceux qui existent, d’autant que la communauté des programmeurs travaille plus volontiers en Open Source. « Nous avons cherché dans des secteurs comme l’analyse d’image, la recherche sémantique, ou encore les outils statistiques de textes... Comment utiliser ces ressources pour générer des métadonnées exploitables ? »

Premier constat : Onix, le format qui permet l’édition de métadonnées pour les livres ne dispose pas de champ de description dédié à la couverture. « Nous nous sommes tournés vers la BTLF, pour faire remonter ce manque. Après tout, on connaît l’histoire : un lecteur, en librairie, se souvient vaguement du livre qu’il cherche. Il a retenu que c’était un roman historique, avec une bicyclette sur la couverture. »

Quand l'intelligence artificielle comprendra ce qu'elle lit...

C’est ici que Tamis pourrait intervenir. Et plus encore : « Les algorithmes peuvent apprendre à classer des livres, mais également à générer des descriptions. Pour exploiter le Machine Learning, il faut leur apporter suffisamment de données, leur faire » lire » les livres, pour qu’ils les exploitent. »

Exemple simple : seule une machine pourrait aboutir à extraire des données de géolocalisations telles que le livre serait classé comme se déroulant à 78 % à Montréal, 12 % à Paris et 10 % à Saskatchewan. « Toute la problématique est encore de parvenir à utiliser ces données par la suite, pour améliorer la découvrabilité du livre. »

La Machine Learning rêve-t-elle de quatrièmes de couverture ?

Et surtout, pour que cela fonctionne, et que l’intelligence artificielle progresse, lui apporter de la matière. « Septentrion dispose de 850 titres publiés. C’est beaucoup, mais insuffisant. Nous avons donc ouvert notre collaboration avec des éditeurs présents chez De Marque – c’était tout l’enjeu du modèle collaboratif voulu par le Conseil des Arts. »

En approchant les grands groupes, comme HMH, Boréal ou Québec Amérique, c’est une base de 3500 titres qui sont désormais disponibles. « Si nous avons des résultats probants, alors on pourra démarcher d’autres maisons. » Et toujours avec la garantie que les informations tirées de ces analyses seront fournies aux partenaires, qui les exploiteront à leur tour.

Certes, pour ce projet, 75.000 $ CA en mise de départ ne permettent en réalité que des expérimentations liminaires, « c’est juste assez pour susciter l’intérêt de chacun ». Mais d’ores et déjà, les universitaires se montrent attentifs : « Eux sont souvent dans la dimension théorique du Machine Learning, tout en manquant de contenus pour éprouver leurs hypothèses. »

Tamis aurait de quoi nourrir libraires, éditeurs, bibiothécaires, universitaires, chercheurs en données. Un prototype de moteur de recherche s’appuyant sur les couvertures est en cours de réflexion. Une première pour le secteur, mais qui débouche aussi sur une meilleure compréhension de l’usage des métadonnées par les moteurs de recherche eux-mêmes.

« On verse dans le rétro engineering pour remonter le courant et capter ce qui fonctionne. Tant pour Renault Bray que chez Amazon. Pour ce dernier, on a déjà mis en exergue qu’il est le seul acteur à se servir de mots clefs pour ses résultats de recherche. »

“Un côté geek fascinant”

Christian Roy est en charge des éléments plus techniques, les mains dans le cambouis. Responsable des recherches, programmeur, il rédige les billets présentant les résultats qui découlent des premières expérimentations. « Je prends en charge toute la technique, à l’exception du redéploiement des métadonnées dans le site des éditions du Septentrion. »

Tamis présente « un aspect geek fascinant, pour ce que les algorithmes réalisent. Appliquer des sciences dont on entend parler au secteur culture, c’est aussi résoudre des problèmes que l’édition rencontre ». Si les outils apparaissent complexes, leurs apports sont finalement simples.

Si un robot peut “manger une table”,
comment va-t-il “tuer le temps” ?

« Pour travailler la longue traîne, cela travaillera les livres pour mieux les manifester, alors qu’on observe l’effet contraire. Les algo de recommandations s’abreuvent de données de consommation immédiates, qui ne sont pas reliées aux œuvres elles-mêmes. »

GoToVan, CC BY 2.0

Bien entendu, tout dépendra de l’exploitation qui en sera faite, « mais je fais confiance à la créativité des gens qui les utiliseront ». La découvrabilité, notion centrale du projet, reste première. Pourtant, « on aboutira à des résultats inattendus aujourd’hui, qui apporteront des applications supplémentaires ». Et plus encore si le catalogue passé au crible se gonfle : « Avec 800.000 titres, on parviendrait à une tout autre échelle », poursuit-il, un brin rêveur.

Des données à l'enrichissement des classifications

Tamis incarne donc un projet de recherche appliquée qui, sans réinventer la roue, résoudrait des cas concrets de demande qu’expriment les lecteurs. « Non seulement on sort de ce que l’éditeur raconte sur son livre, mais on peut quasiment basculer vers le langage nature : le web sémantique est là. »

Avec, dans le même temps, la possibilité de croiser les concepts évoqués par un lecteur. « Un papillon bleu sur la couverture, c’est peu comme information, même pour un fantastique libraire, parce que la mémoire des humains n’est pas infinie. » Celle d’une machine, bien nourrie de données, en revanche, pourrait être un complément intéressant.

Dans un premier temps, les apports de Tamis pourront compléter les balises ONIX, par l’ajout de mots clefs descriptifs. « La BTLF est ouverte à un principe de normalisation, mais nous n’en sommes pas encore là : d’abord, il faut appréhender la valeur des choses que Tamis nous fournit, avant d’imaginer une balise descriptive de la couleur des couvertures. »

Et d’ajouter en plaisantant : « Qui existe d’ailleurs peut-être déjà dans les 300 pages de spécifications d’ONIX ! »

Des données pertinentes, qui apporteront au minimum des mots clefs, l’idée est là. Ensuite, pourquoi ne pas imaginer d’ajouter dans les classifications BISAC (Book Industry Systems Advisory Comittee), utilisée aux États-Unis, avec quelque 4000 entrées thématiques ou THEMA, de nouvelles entrées ? « La suite du projet serait alors d’établir un maping avec les classifications existantes... »

Presque vertitginieux. À suivre ici.

L'intelligence artificielle au service du livre et de la lecture

Crédits photo : Matthew Hurst, CC BY SA 2.0

Quand le livre croise l'algorithme : Tamis, la révolution des métadonnées

Enrichir la description d'un livre, par le livre

Puiser aux algorithmes, pour trouver du nouveau

La Machine Learning rêve-t-elle de quatrièmes de couverture ?

Des données à l'enrichissement des classifications

Commenter cet article

Conseils de lectures : deux acteurs s'associent pour aider à choisir

Olga Tokarczuk : quand la littérature et les jeux vidéo se rencontrent

Offrir et envoyer des livres à ses proches : une pratique à cultiver

La BnF ajoute Skyblogs et pages perso Orange à la sauvegarde du net

L'Intention, le nouveau podcast de Hachette Livre

IA : un guide pour savoir (mieux) utiliser ChatGPT

Rakuten Kobo dévoile les habitudes de lecture numérique des français

Des livres pour Noël : un compagnon de lectures pour la fin d'année

TikTok nocif pour la santé mentale : qu'importe, si ça vend des livres ?

McDonald's et les TGV mettent des mangas dans le quotidien

Piratage : dans l'UE, l'accès illicite aux livres s'étend

Une journée Accès au Livre et à la Lecture Inclusive, en octobre 2023

Conseils lecture : Ajoutez un goût d'aventure à votre rentrée

Conseils lectures : Comment prolonger ses vacances ?

Japon : la Bibliothèque nationale ouvre ses collections en ligne

La Bibliothèque nationale suisse collecte des articles de Wikipédia

Conseils lecture : quels livres emporter pour des vacances à la plage ?

Baisse du piratage en France, mais le combat se poursuit partout

Une bibliothèque en ligne sur la santé et le bien-être, en 100 langues différentes

Propriété intellectuelle : un outil “maison” et gratuit pour aider les éditeurs

Livres audio et podcasts : consommation en hausse chez les Français

Gulli lance son application et propose du contenu audio

Petit Ours Brun millionnaire

Lecture numérique : l'écran peut-il rimer avec culture ?

Les Français et leurs écrans, l'histoire d'amour

Le chiffre qui réconforte : jusqu'à 5 heures de lectures par semaine

Un catalogue pour les oeuvres littéraires numériques du Québec

Censuré à l'ère soviétique, 1984 d'Orwell devient un best-seller en Russie

17 % des Italiens lisent exclusivement sur téléphone... mais pas des livres

Québec : évolution du livre numérique, entre 2012 et 2022

2000 auteurs autoédités ont gagné 100 000 $ en 2022

En bibliothèques, les livres numériques ont séduit les Catalans

En bibliothèque, la réalité virtuelle apaise les ados angoissés

Livre numérique : après la crise sanitaire, retour à la normale

Twitter : les écrivains publieront du contenu long (enfin ?)

Audiolivre, ebook : après la pandémie... la croissance ?

Au Moyen-Orient, une alliance autour des livres audio

Kobo inaugure une gamme de liseuses en couleur

Meta a envisagé l'acquisition de Simon & Schuster pour entraîner son IA

Le livre numérique de plus en plus plébiscité en Espagne

Les éditions Milan lancent “le premier manga audio”

Piratage : après la France, l'Allemagne bloque Sci-Hub sur son territoire

Livre audio : l'insondable énigme de la création des contenus

Transparence, labels... Comment réguler l'IA dans la culture ?

Offrir des livres comme on offre des fleurs

L'intelligence artificielle : l'Europe, premier bon élève ?

Droit d'auteur et IA : un rapport à l'Élysée tourné vers l'Europe

Créer des vidéos pour parler des livres

Allemagne : ventes d'ebooks en hausse en 2023, après un mauvais 2022

Quelques années après son rachat, Feedbooks disparait

Quatre éditeurs scientifiques réclament près de 30 millions € à LibGen

Spotify propose un abonnement réservé aux livres audio

OpenAI accuse le New York Times d'avoir “piraté” ChatGPT

Des millions pour Inkitt, au croisement de l'autoédition et de l'IA

Club de lecture numérique : “Derrière l'écran, il y a surtout de l'humain”

Marathon de sable et d'Épice : 115 heures à écouter Dune

IA génératives : des mesures de protection pour les artistes

Bibliothèques Sans Frontières lance son appli pour l'intégration

Livre numérique : les “efforts” de la chaine du livre pour l'exception handicap

Amazon révèle une synthèse vocale “de pointe” avec BASE TTS

Le diffuseur numérique e-Dantès rejoint le groupe Albin Michel

Jean Spiri rejoint l'application littéraire Gleeph, avant la mairie de Courbevoie ?

FIBD 2024 : Tom-Tom et Nana dans un escape game

GenIA-L : Lefebvre Dalloz lance son IA spécialisée dans les contenus juridiques

Insight, ou l'intelligence artificielle assistante des éditeurs

Les logiciels des bibliothèqes : 30e enquête Tosca consultants

Quand ChatGPT permet de remporter le Goncourt du Japon

Manga Nova, une nouvelle plateforme de lecture pour Ki-Oon

Facebook admet s'être appuyé sur des livres "piratés" pour former son IA

Malgré une “année solide”, Audible procède à des licenciements

Nextory fait évoluer son application de lecture en streaming

ChatGPT : OpenAI admet ne pouvoir se passer de contenu soumis au droit d'auteur