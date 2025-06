Le marché du livre audio est en croissance exponentielle depuis cinq ans, tant en France qu’à l’international. Dans l'Hexagone, on estime qu’en 2023 près de 6,8 millions de personnes ont écouté au moins un livre audio, contre environ 4,5 millions cinq ans plus tôt d’après les baromètres annuels. Sur la période 2019-2022, le chiffre d’affaires du secteur a bondi de +11 % en France, avec des hausses similaires en Espagne et en Italie.

Un marché en plein essor porté par le numérique

À l’échelle mondiale, les ventes atteignaient 5,67 milliards de dollars en 2023 et devraient dépasser 14 milliards d’ici 2030, soit une croissance annuelle moyenne de plus de 14 %. Le format audio représente une part de plus en plus significative de l’édition, avec environ 12 % de la population française ayant déjà écouté un audiobook en 2022, un chiffre encore modeste mais en rapide progression.

Cette dynamique s’explique par plusieurs facteurs convergents. D’une part, l’essor des usages numériques nomades – smartphones et plateformes de streaming – a rendu le livre audio accessible partout, stimulant une nouvelle pratique de « lecture » en mobilité. D’autre part, les offres d’abonnement type Audible ou Spotify ont fidélisé un public croissant : aux États-Unis, 63 % des auditeurs de 2023 utilisent un abonnement.

Parallèlement, l’offre de contenus explose : Audible prévoyait ainsi de proposer 100 000 titres en français dans son catalogue à l’horizon 2025, contre 15.000 aujourd’hui. Malgré tout, le livre audio reste loin des volumes du livre imprimé – un best-seller audio en France se vend à 3 000–5 000 exemplaires, encore bien en deçà des tirages papier. Néanmoins, la tendance est au rattrapage : certaines projections estiment qu’en 2030 les audiobooks pourraient générer 35 milliards de dollars de revenus mondiaux, soit près de 10 % du marché global du livre.

Face à cet engouement, les grandes plateformes technologiques ont lancé des initiatives pour industrialiser la production d’audiolivres grâce à la synthèse vocale. Google a été pionnier : dès fin 2020, la firme annonçait son projet Google Play Books auto-narration (nom de code “Google Magic”). L’idée ? Permettre à des narrateurs virtuels de lire automatiquement le contenu des ebooks n’ayant pas encore de version audio.

Après une phase de bêta aux États-Unis et au Royaume-Uni, Google a ouvert en décembre 2022 un service de création d’audiobooks autogénérés, accessible gratuitement aux éditeurs partenaires. Le système propose plus de 50 voix artificielles dans plusieurs langues (anglais, français, allemand, espagnol, etc.) et permet de convertir un simple fichier EPUB en livre audio en « moins de deux heures ». Google vante une solution « simple et à moindre coût », avec un partage des revenus de 52 % pour l’éditeur sur les ventes réalisées via Google Play.

Les géants de la tech à l’assaut du livre audio

Amazon, de son côté, avance prudemment mais sûrement. Sa filiale Audible – leader du secteur avec environ 2 milliards de dollars de ventes aux USA en 2023 – a longtemps refusé les contenus à voix synthétique sur sa plateforme. Mais en 2023-2024, Amazon a officiellement amorcé un virage. D’une part, Audible a commencé à cloner des voix de narrateurs professionnels volontaires pour accélérer la production.

Un programme pilote lancé aux États-Unis propose aux comédiens de prêter leur voix à l’IA, qui l’imitera ensuite pour enregistrer des livres : en échange, le narrateur perçoit une rémunération sur chaque vente réalisée avec sa voix synthétique. D’autre part, Audible a annoncé en mai 2025 un nouvel outil « fully integrated AI narration » destiné aux éditeurs. Ce service prévoit deux options : soit une production clé en main gérée par Audible, de l’ingestion du texte jusqu’au fichier audio final, soit une production en libre-service où l’éditeur utilise lui-même les voix IA d’Amazon.

Dans les deux cas, un panel de plus de 100 voix numériques est mis à disposition en anglais, français, espagnol et italien, avec divers accents et dialectes. Audible promet également pour 2025 un module de traduction automatique des audiobooks, y compris un système voix-à-voix capable de reproduire la voix originale d’un narrateur dans une autre langue.

Apple s’est lui aussi positionné sur ce créneau. La marque à la pomme a discrètement lancé en janvier 2023 une offre d’audiobooks narrés par IA sur son application Apple Books. En partenariat avec de petits éditeurs, Apple a fait enregistrer par des voix de synthèse (« Madison », etc.) une série de titres de romance et développement personnel en anglais. Apple prend en charge les coûts de production et verse aux ayants droit les redevances habituelles, tout en ayant exigé de ses partenaires une stricte confidentialité sur ce projet novateur.

La firme présente cette narration numérique comme une opportunité d’« élargir la disponibilité » des livres audio à moindre frais, sur un marché « très juteux » en croissance de +25 % par an. Elle aurait toutefois retardé le lancement pour éviter un bad buzz dans un contexte de méfiance envers la tech fin 2022. Les observateurs notent qu’Apple cible avant tout les petits éditeurs et auteurs auto-publiés, pour lesquels le coût d’un narrateur humain est souvent prohibitif.

La voix de synthèse, nouvel eldorado des plateformes

Enfin, le géant du streaming Spotify s’est engouffré à son tour dans la brèche. En février 2025, Spotify a annoncé un partenariat avec la start-up ElevenLabs, spécialiste des voix synthétiques ultra-réalistes. Concrètement, tout auteur utilisant la plateforme de distribution Findaway Voices (rachetée par Spotify) pourra faire narrer son livre en 29 langues par l’IA d’ElevenLabs, et diffuser le résultat sur Spotify. La seule contrainte imposée : la transparence vis-à-vis du public.

Chaque livre audio produit de la sorte portera la mention explicite « Ce livre audio est narré par une voix numérique » dans sa description et ses métadonnées. Spotify entend ainsi décupler son catalogue de 375 000 titres, en donnant leur chance à des œuvres qui n’auraient jamais eu de version audio autrement. Cette exigence de clarté quant à la nature synthétique de la voix préfigure sans doute une norme de l’industrie pour les années à venir.

Éditeurs : entre expérimentations prudentes et refus catégoriques

Du côté des éditeurs de livres, l’arrivée de la synthèse vocale suscite à la fois espoirs pragmatiques et réserves artistiques. Quelques acteurs ont tenté l’expérience, surtout à l’étranger ou sur des segments spécifiques. Aux États-Unis, on a vu émerger en 2022-2023 des prestataires comme DeepZen ou Speechki proposant aux éditeurs indépendants des narrations IA à moindre coût. La startup londonienne DeepZen, par exemple, a conclu des accords avec 35 éditeurs dans le monde et a même ressuscité la voix du défunt acteur Edward Herrmann pour enregistrer des centaines de livres audio posthumes.

Apple Books, de son côté, a convaincu certains petits éditeurs canadiens de participer à son programme de narration numérique, Apple prenant à sa charge la production (sous couvert d’accords de non-divulgation). Ces éditeurs pilotes y ont vu l’opportunité de donner une vie audio à des titres de leur catalogue qui, sinon, seraient restés muets, faute de budget pour payer un comédien.

De même, en Suède ou en Espagne, quelques éditeurs de manuels scolaires et de publications professionnelles ont commencé à utiliser des voix de synthèse pour des contenus à faible audience, où la qualité d’interprétation compte moins que la simple accessibilité du texte.

Face à l’IA, les éditeurs français restent prudents

En France, en revanche, la profession s’est montrée jusqu’ici très réticente à l’usage de voix artificielles. « Aucun éditeur français n’a recours, aujourd’hui, aux voix artificielles », affirmait en 2023 Valérie Lévy-Soussan, directrice générale d’Audiolib (éditeur leader du secteur). Présidentes de la commission Livre audio du Syndicat national de l’édition (SNE), Mme Lévy-Soussan et Laure Saget (Gallimard) assurent que pas un seul éditeur membre du SNE n’envisage d’utiliser des voix de synthèse à ce stade.

Plusieurs maisons françaises ont publiquement décliné les offres de Google ou consorts. « Sur le plan qualité, qui voudrait payer pour avoir cela ? Il n’y a aucune valeur ajoutée », jugeait dès 2022 Valérie Lévy-Soussan, qualifiant la démarche de Google de « non-événement » tant la lecture robotisée lui semblait rudimentaire. Elle notait en outre que les grandes plateformes comme Audible refusaient alors de commercialiser des livres lus par des voix synthétiques, ce qui limitait de facto les débouchés. Les éditeurs français, engagés dans une « conquête d’auditeurs » pour populariser le format audio, craignent qu’une qualité dégradée ne freine au contraire l’adhésion du public.

À leurs yeux, l’art de l’interprétation par un comédien apporte une plus-value essentielle qu’une machine ne reproduit pas (intonations, émotions, incarnation du texte).

Pour autant, même les plus sceptiques reconnaissent un intérêt potentiel des voix synthétiques dans certains cas de figure. « Ces outils pourraient servir à des éditeurs universitaires, techniques ou scientifiques, ou pour des titres qui n’auraient jamais émergé en audio à cause du coût de production », concède Valérie Lévy-Soussan. Un acteur comme Saga Storify France, qui produit des livres audio pour des auteurs autoédités, se dit ainsi prêt à tester la synthèse vocale pour étendre l’audience de certains textes confidentiels.

De même, la start-up Lunii (boîtes à histoires pour enfants) voit dans l’IA une opportunité de créer des histoires audio interactives : son cofondateur travaille avec l’IRCAM à rendre la synthèse vocale plus expressive, dans le but de générer à la volée des variantes de récit impossibles à toutes enregistrer en studio. Ces premières explorations restent toutefois limitées et encadrées. Aucun éditeur traditionnel ne songe encore à remplacer ses lecteurs professionnels par une voix artificielle pour ses nouveautés grand public. La synthèse vocale est plutôt envisagée en complément (pour les fonds de catalogue, les documents techniques) qu’en substitut à grande échelle.

Un cadre juridique encore flou et disparate (France, UE, USA)

L’état du droit autour des voix de synthèse appliquées aux livres soulève de nombreuses questions, où se mêlent propriété intellectuelle et droits des artistes. En France, la situation est pour l’instant relativement claire : un livre audio est considéré comme une œuvre dérivée qui nécessite deux jeux d’autorisations : celle de l’auteur du texte (droit d’adaptation) et celle de l’artiste-interprète qui prête sa voix.

Le Code de la propriété intellectuelle confère en effet aux narrateurs de livres audio des droits voisins similaires à ceux des acteurs (droit moral sur leur prestation, droit à rémunération pour chaque mode d’exploitation). Par conséquent, si un éditeur souhaite publier une version audio lue par un comédien, il doit prévoir un contrat avec ce dernier ou avec le studio d’enregistrement, cédant le droit d’utiliser sa voix pour cet ouvrage moyennant salaire ou royalties.

En revanche, dans le cas d’une lecture par voix de synthèse, il n’y a pas d’“artiste-interprète” humain – et donc pas de droits voisins à payer. Faut-il en conclure qu’un éditeur pourrait légalement produire un audiobook IA sans formalités autres que l’accord de l’auteur du texte ? Pas si vite. D’une part, si la voix de synthèse utilisée est le clone d’une voix réelle (par exemple celle d’un acteur célèbre), il faudrait bien sûr l’autorisation de l’intéressé ou de ses ayants droit.

D’autre part, et surtout, la jurisprudence considère que la lecture audio d’une œuvre sans autorisation est une contrefaçon, quel que soit le moyen. En clair, un éditeur ne peut pas diffuser une version lue de texte – même générée par machine – sans avoir négocié les droits afférents. En pratique, les éditeurs français intégreront donc dans leurs contrats d’édition une clause couvrant la version audio, quelle qu’en soit la méthode de production, afin d’être juridiquement au clair.

Un cadre juridique encore incertain et fragmenté

Au niveau européen, aucune législation spécifique ne régit encore l’usage des voix synthétiques dans les livres audio. Les règles existantes s’appliquent : respect du droit d’auteur (y compris l’exception en faveur des personnes handicapées visuelles, qui autorise les adaptations audio à des fins d’accessibilité), et respect des droits voisins des éventuels interprètes humains. Cependant, l’essor de l’IA soulève de nouveaux enjeux juridiques en Europe aussi.

Par exemple, la Commission européenne travaille sur un règlement IA (AI Act) qui pourrait imposer des obligations de transparence aux systèmes générant de la parole. De même, la question de la protection de la voix comme attribut de la personnalité commence à émerger : en France, le droit à la voix (analogue au droit à l’image) pourrait théoriquement être invoqué si une IA usurpe la voix distinctive d’une personne à son insu dans un contenu commercial.

Aux États-Unis, le vide juridique est encore plus criant concernant les voix synthétiques. Aucune loi fédérale ne protège aujourd’hui spécifiquement une personne contre l’imitation de sa voix par une IA. Le droit d’auteur ne couvre pas la voix en elle-même, et le droit à l’image ou à la personnalité varie selon les États. En 2023, une première class action a été engagée par deux comédiens de voix contre une startup accusée d’avoir cloné leur voix sans consentement pour alimenter un service de synthèse vocale.

Ce procès met en lumière l’absence de cadre légal clair : « Nous avons besoin de lois fédérales protégeant la voix des individus, et nous en avions besoin hier », plaide l’avocat des plaignants. Des initiatives législatives commencent à voir le jour, telles que le projet de loi bipartisan No Fakes Act déposé fin 2023 au Congrès, qui viserait à interdire l’usage non autorisé de la voix ou de l’image d’une personne dans des contenus audiovisuels faux ou trompeurs. En attendant, ce sont surtout les accords contractuels et la pression des syndicats qui encadrent l’IA aux États-Unis.

La grande grève d’Hollywood de 2023 a eu pour enjeu majeur le contrôle de l’IA : dans l’accord final, les studios se sont engagés à obtenir le consentement et à rémunérer les acteurs pour toute utilisation de leur digital replica (voix ou image) générée par IA.

Fronde des comédiens, prudence des éditeurs : réactions professionnelles

L’irruption des « voix synthétiques » dans l’édition a provoqué des réactions vives des syndicats de comédiens et une mobilisation inédite pour défendre la profession de narrateur. En France, dès 2022, l’association de comédiens Les Voix a lancé le mot-clé #TouchePasMaVF pour sensibiliser le public aux risques de l’IA dans le doublage et la narration.

Le Syndicat français des artistes-interprètes (SFA-CGT) a de son côté réuni en 2024 une intersyndicale afin de négocier avec les employeurs des clauses contractuelles encadrant strictement l’usage de l’IA. Ces discussions visent à protéger les voix des comédiens et à assurer des conditions de travail équitables. Les syndicats réclament par exemple que tout projet impliquant une synthèse de voix soit soumis à l’accord du comédien et fasse l’objet d’une rémunération spécifique.

En parallèle, plus de 150 000 signataires ont soutenu en ligne la pétition des artistes de la voix contre les dérives de l’IA. Les éditeurs, quant à eux, adoptent une approche mesurée, entre ouverture technologique et affirmation de leurs valeurs artistiques. Officiellement, le Syndicat national de l’édition soutient les acteurs de la voix.

En juin 2025, à l’occasion du « Mois du Livre audio », le SNE a même lancé un label “Interprétation humaine” pour distinguer clairement les livres audio lus par de vrais comédiens. Ce macaron “IH” pourra être apposé sur les jaquettes et dans les métadonnées des ouvrages audio, afin de valoriser « l’importance de la collaboration artistique entre éditeurs et comédiens ». Ce label est révélateur de la ligne adoptée par les éditeurs : transparence sur la nature de la narration et défense de la qualité artistique.

Usages, perception du public et enjeux culturels

L’émergence des livres audio à voix de synthèse soulève enfin la question de leur acceptation par le public et des enjeux culturels sous-jacents. Les études disponibles indiquent qu’en 2023, une majorité de consommateurs restent réticents à l’idée d’une narration artificielle. Seulement 13 % des auditeurs de livres audio se déclarent « très ouverts » aux voix IA, tandis que plus de 60 % préfèrent nettement les voix humaines et redoutent l’impact de l’IA sur l’emploi des narrateurs. Beaucoup d’auditeurs perçoivent encore les voix IA comme monotones ou froides, manquant de cette chaleur humaine qui fait qu’on s’attache à un lecteur comme à un personnage.

Il existe néanmoins des usages de niche où la synthèse vocale est bien acceptée, voire attendue. Pour les contenus purement informatifs ou pratiques, une voix artificielle de bonne qualité peut suffire. De même, pour les publics empêchés (non-voyants, dyslexiques), la voix de synthèse est depuis longtemps un outil d’accessibilité. Il n’est pas anodin que les premières expérimentations d’Apple ou de Google aient ciblé des genres comme la romance sentimentale ou le développement personnel, où l’auditeur recherche davantage un contenu qu’une performance littéraire.

Innovation technologique et défense de l’interprétation humaine

Sur le plan culturel et artistique, toutefois, les enjeux dépassent la simple préférence utilisateur. De nombreux écrivains et éditeurs soulignent que la narration audio est un acte créatif à part entière. Un bon livre audio n’est pas qu’un texte lu, c’est une interprétation, parfois proche du théâtre ou du cinéma, qui ajoute une dimension émotionnelle et sensorielle à l’œuvre écrite. Ainsi, substituer massivement les acteurs par des voix synthétiques appauvrirait la création.

D’un point de vue strictement analytique, la voix de synthèse représente un progrès technologique inévitable, mais qui, appliqué brutalement à la littérature, menace l’écosystème fragile du livre audio tel qu'il s'est construit ces dernières années. Le véritable enjeu est de poser des limites claires : l'utilisation de voix de synthèse peut se concevoir pour des contenus utilitaires, des textes techniques, des livres autoédités sans budget.

En outre, elle ne saurait se substituer à la lecture humaine sur des œuvres littéraires, notamment celles qui requièrent une interprétation artistique. Car le risque est celui d’une industrialisation à marche forcée, où l’offre audio explose quantitativement mais s’appauvrit qualitativement, au détriment des auteurs, des interprètes et du public.

Par Nicolas Gary

