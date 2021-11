Les livres audio séduisent de plus en plus. Si bien qu’en juillet, le gouvernement français annonçait investir dans le développement du livre audio, en proposant différentes aides financières aux éditeurs. En effet, selon les données du panéliste GfK, sur 2020, le livre audio avait généré 18 millions de téléchargements payants – soit une croissance de 27 % en un an. Un chiffre significatif qui s’est expliqué, entre autres, par un confinement qui favorisait la popularité de ce format numérique.

Or, malgré un public grandissant, le processus de production de ces livres audio n’en reste pas moins coûteux et laborieux. Une solution semble cependant émerger : la création automatisée de livres audio grâce à l’intelligence artificielle.

Le temps, c’est de l’argent

Traditionnellement, un livre audio peut durer jusqu’à huit heures. L’enregistrement d’une heure complète peut en demander le double, afin d’obtenir le résultat souhaité. Dans le cas d’entreprise comme Amazon, à travers Audible, les livres audio sont créés par un système de « Audiobook Creation Exchange », avec deux types de tarification. D’un côté, l'auteur peut décider d’engager un comédien de doublage, en échange de 20 % des redevances. De l’autre, il existe la possibilité de s’appuyer sur des frais fixes, qui sont négociables.

Enfin, au temps nécessaire s’ajoute inévitablement le coût lié au talent requis : en effet, les acteurs sont un facteur non-négligeable, puisqu’un livre audio ne peut pas se résumer à des mots lus à voix haute. La lecture doit se faire en véhiculant les bonnes émotions au bon moment, sans jamais pouvoir espérer s’appuyer, comme des acteurs à l’écran, sur le pouvoir d’une expression ou d’un regard.

Le talent n’a pas de prix ?

Aux États-Unis, les professionnels de ce métier sont représentés par un puissant syndicat, SAG-AFTRA (Screen Actors Guild–American Federation of Television and Radio Artists), qui se présente comme étant « le plus grand syndicat au monde représentant les artistes interprètes et les diffuseurs ».

En plus du danger de voir ces acteurs remplacés par des voix informatisées, SAG-AFTRA semble s’inquiéter du clonage de voix par l’intelligence artificielle, de plus en plus répandue, qui mettrait en péril la rémunération de l’artiste concerné. Comment assurer qu’une voix ne soit pas tout bonnement volée ?

NUMERIQUE : Gollum, conteur pour HarperCollins

Interrogé sur la manière dont l'IA pourrait affecter la demande d'acteurs de la voix, un représentant syndical a affirmé : « La narration de livres audio est une entreprise de narration humaine, et dans l'ensemble, les professionnels extraordinaires qui racontent ces histoires sont très attachés à la narration interhumaine. Mais à part cela, ils veulent être sûrs d'être rémunérés équitablement et d'avoir le contrôle sur l'utilisation des voix numérisées créées en fonction de la leur. Ils veulent également que leurs fans, les consommateurs, sachent qu'ils achètent une performance non humaine, pas celle donnée par leur narrateur préféré ».

Alors quoi ? Le futur se trouve-t-il donc dans la simplification de la production, par une réduction de coût ? Et dans la suppression de ces « talents », de façon à réduire le temps de création nécessaire ?

L’IA dans l'industrie du livre audio aujourd'hui

La création automatisée de livres audio n’est pas une fantaisie irréalisable, puisqu’elle se base sur l’intelligence artificielle utilisée par des systèmes comme Siri et Alexa. La synthèse vocale crée un son généré artificiellement, afin de ressembler à une parole humaine – au point de bientôt devenir indiscernable d’un être humain.

Ainsi, se reposer sur cette même technologie pour de longs fichiers audio, tels que les livres audio, semble être une prochaine étape logique. Problème : donner la définition d’un mot ou annoncer le temps qu’il fait à New York ne peut pas s’équivaloir à huit heures de narration.

À LIRE: Audible France investit 10 millions € par an pour le livre audio

Sans pour autant égaler le niveau d’une voix humaine, l’intelligence artificielle s’est déjà dotée d’une capacité d’imitation. Depuis plusieurs années, des géants de la technologie, tels que Apple, Google, Microsoft et Amazon, travaillent au perfectionnement des voix d’assistants personnels, afin qu’elles semblent plus humaines. Jusqu’ici, ces systèmes connectent des mots à partir de fichiers pré-enregistrés.

Contrairement à l’énonciation humaine, qui se compose aussi de respirations, de pauses et d’hésitations, ces voix robotiques ne sont pas capables – pour l’instant – d’imiter les nuances qui pourraient les rapprocher d’une certaine humanité vocale. Or, les avancées technologiques permettent d’imaginer un futur où ces voix robotiques parviendront à duper bon nombre d’entre nous.

Bradley Metrock, PDG de Project Voice et de Digital Book World, s’est exprimé sur la question : « Avec la récolte actuelle de voix synthétiques haut de gamme, 95 % des gens ne reconnaîtraient pas qu'elles sont générées artificiellement. Dans 12 à 24 mois, ils auront atteint des niveaux humains ».

Au cœur de ce domaine en pleine évolution, les géants de la technologie sont suivis de près par d’autres fournisseurs. Les plus intéressants sont DeepZen, où toutes les voix sont sous licence et clonées à partir de narrateurs humains, et Speechki, qui compte 251 voix dans 72 langues.

Bien que la création automatisée de livres audio est loin d’être parfaite, elle se présente comme une option alléchante pour les maisons d’édition qui n’ont pas un budget assez important pour se permettre un processus plus traditionnel. Il ne serait pas surprenant de voir émerger ces nouveaux livres audio, aux voix « humaines », d’ici les années à venir…

Sources : Publishers Weekly, Towards Data Science

