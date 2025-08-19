J'avais décroché un super stage à l’agence américaine Associated Press. Sauf que c'est la loose ! L'AP vient d'annoncer la fermeture du service recension. Les statistiques disent qu'il n'y a plus de lecteurs. Tout le monde s'est barré sur la plateforme chinoise Tik Tok. Je sois trouver un truc qui pourrait sauver mon avenir pro. Eurêka, j'ai trouvé l'idée du siècle : écrire un algorithme qui prédise le Prix Goncourt. Je maîtrise les tableurs, les scripts Python et je connais un peu le sujet de la rentrée littéraire. Je tiens le futur entre mes doigts.

Étape 1 : les éditeurs, 20 ans de statistiques

Premier réflexe : ouvrir un tableur. Je note les vingt derniers lauréats, j’aligne les colonnes et je compte. Et là, miracle :

– Gallimard : 6 prix (31.6 %)

– Actes Sud : 4 prix (21.1 %)

– Flammarion : 2 prix (10 .5 %)

– Autres éditeurs : 7 prix

J’exulte : Gallimard + Actes Sud raflent à eux deux la moitié des Goncourt sur vingt ans. Une évidence chiffrée. J’imagine déjà une première ligne de code :

if editeur in ["Gallimard", "Actes Sud"]: probabilité += 0.5

Bon, ce n’est pas encore un algorithme, mais ça ressemble déjà à une boussole.

Étape 2 : les médias, fin août

Je continue. Le Goncourt n’est pas qu’un palmarès d’éditeurs, c’est aussi une histoire de bruit médiatique. Je définis des règles :

"Fin août, il faut que Le Monde ou Télérama ait publié un papier."

"Il faut au moins 3 autres grands médias (Le Figaro, Libé, L’Obs, La Croix, JDD, Paris Match, L’Express, etc.)."

"Je dois aussi compter les passages radio/podcast et télé/YouTube."

Donc l’algo, en vrai, il ne comprend pas la littérature (pas qu'on le lui demande, d'ailleurs), il coche des cases :

– Présence presse de référence (Le Monde ou Télérama en août-septembre).

– Présence > 3 articles grands médias.

– Bonus si radio/podcast/vidéo.

Bilan (vu par l’apprenti stagiaire qui râle devant son écran)

Verts : (l’algo aurait repéré) : Houris (Kamel Daoud, 2024 - Gallimard), Vivre vite (Brigitte Giraud, 2022 - Seuil), La plus secrète mémoire des hommes (Mohamed Mbougar Sarr, 2021 - Philippe Rey), Leurs enfants après eux (Nicolas Mathieu, 2018 - Actes Sud), Chanson douce (Leïla Slimani, 2016 - Gallimard), Boussole (Mathias Enard, 2015 - Actes Sud).

Oranges : (présence forte mais mauvais timing) : Veiller sur elle (Jean-Baptiste Andréa, 2023 - L'Iconoclaste), L’anomalie (Hervé Le Tellier, 2020 - Gallimard).

Rouges : (l’algo rate) : Tous les hommes n’habitent pas… (Jean-Paul Dubois, 2019 - L'Olivier), L’ordre du jour (Éric Vuillard, 2017 - Actes Sud).

L’algo, un peu naïf, conclurait que :

Quand Télérama ou Le Monde s’active fin août, ça sent bon le Goncourt.

Il manque les médias audiovisuels (qui pourraient renforcer les signaux).

Étape 3 : l’algorithme des quatrièmes de couv’

Je regarde ma pile de notes. En dix ans de Goncourt, je vois passer :

– les romans du réel social (Mathieu, Giraud, Dubois),

– les romans du cri ou du glaçant (Slimani, Daoud),

– les romans de l’Histoire et de la démonstration (Vuillard),

– les romans de l’érudition et du labyrinthe (Énard, Mbougar Sarr),

– les romans du jeu et du vertige (Le Tellier),

– les romans du destin sculpté (Andrea).

Bon. Là, je crois que j’ai trouvé ma boussole. Je vais définir mon algorithme des quatrièmes de couv’. Trois grands critères… enfin non, quatre, parce qu’il y a aussi les repères temporels et spatiaux. Allez, je pense tout haut :

1. Les Thèmes.

Je commence par chercher les grands mots qui reviennent souvent chez les Goncourt : mémoire, guerre, vie, société, amour, exil. Quand un roman en aligne plusieurs, je mets un score haut. Si ça s’écarte trop, hop, le score baisse. C’est simple, non ?

2. Le Style.

Ensuite, j’essaie de mesurer la densité de vocabulaire abstrait ou littéraire. Des mots comme destin, identité, humanité, politique. Plus il y en a, plus ça fait “littéraire/Goncourt”. À l’inverse, si le texte parle plutôt d’objets concrets, de quotidien, le score descend. Le quatrième de couv’, c’est rarement de la prose flamboyante, mais ça donne une idée.

3. L’Originalité.

Ah, là je rigole moins… parce qu’il faut comparer chaque texte aux anciens. J’utilise une mesure de distance TF-IDF (oui, c’est technique). Plus un roman s’éloigne des profils passés, plus je lui mets un score haut. S’il ressemble trop aux précédents, paf, originalité faible. Et je râle, parce que ça donne souvent des scores moyens…

4. Les Repères (temps et espace).

Enfin, je scrute les indices temporels (après-guerre, années 90, vingt ans plus tard) et les lieux (noms de villes, pays). Quand c’est bien ancré dans un contexte, le score grimpe. Quand ça flotte dans une intériorité sans balises, ça baisse.

Voilà. J’ai tout codé, et je balance mes données.

Le calcul est fait !

Pour chacun des 10 lauréats, j’ai quatre scores : Thèmes, Style, Originalité, Repères. Tout ça est normalisé dans un tableau interactif. Et j’ai même sorti un radar : ça donne le profil moyen des quatrièmes.

Alors… verdict ?

Style : les scores sont homogènes, pas étincelants. Normal, une quatrième n’est pas là pour briller stylistiquement, mais pour cadrer l’histoire et les enjeux.

Originalité : moyenne assez basse. Toujours les mêmes thèmes : mémoire, guerre, famille, identité. Ça ne veut pas dire que les romans eux-mêmes manquent d’originalité, mais que les quatrièmes restent dans une zone rassurante, “compatible Goncourt”.

Thèmes : très hauts. Les récurrences sautent aux yeux : mémoire, exil, politique, histoire.

Repères : aussi bien présents. Guerres, lieux, périodes marquées : l’ancrage spatio-temporel est net.

Résultat : le futur Goncourt, vu par son quatrième de couv’, se joue pile à l’intersection de ces quatre dimensions. Et moi, stagiaire-algo, je jubile : j’ai réussi à transformer des phrases de promo en une empreinte littéraire.

Étape 4 : ce qu’il reste à faire

Je jubile, puis je peste. Mes scores fonctionnent trois fois sur quatre : il y a toujours un Goncourt inattendu qui échappe à mes cases. Un auteur qui surgit, une maison d’édition moins attendue, une surprise que mon script ne voit pas venir. Alors je note mes prochaines pistes :

Chercher dans les signaux faibles : les désaccords de critiques, les romans qui divisent.

Creuser l’analyse thématique pour mieux distinguer les constantes (mémoire, histoire) des ruptures.

Mieux calibrer l’indice d’originalité : savoir quand “trop conforme” devient un handicap.

Conclusion : un jeu sérieux

À la fin, je souris. Mon “algorithme Goncourt” n’a rien de magique. C’est une loupe qui révèle des régularités : le poids des éditeurs, le rôle des médias, la grammaire des quatrièmes. Trois fois sur quatre, il tape juste. La quatrième fois, il se trompe — et c’est peut-être ça, le vrai Prix Goncourt : rester imprévisible.

Moi, stagiaire, je referme mon carnet de codes. J’entends mes collègues discuter de leur avenir professionnel.

Un extrait des différents livres cités est proposé en fin d'article.

Par Bernard Strainchamps

Contact : bs@bibliosurf.com