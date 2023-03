Avec une rapidité fulgurante, les technologies impliquant l'intelligence artificielle surgissent de toutes parts, prenant de court les artistes, les publics et les législateurs dans le monde entier. Si les applications liées à l'image et au texte sont particulièrement en vue, l'audio n'est pas en reste.

Le développement de la synthèse vocale profite en effet largement des possibilités offertes par l'apprentissage automatique, lequel permet à des programmes de « s'améliorer » en traitant des réservoirs de données.

Chacun son robot

Les diffuseurs de livres audio ne s'y sont pas trompés : pour se constituer un gigantesque catalogue, l'intelligence artificielle offre un raccourci alléchant. Narrer des centaines d'ouvrages du domaine public, sans recourir à des acteurs humains, voilà ce qui fait rêver nombre de multinationales, Apple et Google en tête.

Le second avait inauguré sa section « Google Play Public Domain » en 2020, avec quelques titres, en anglais, racontés par une voix de synthèse. Deux ans plus tard, la société ouvrait plus largement l'accès à son outil, en promettant aux éditeurs : « Au lieu d’un narrateur humain, c’est la technologie Google qui se charge de lire ces livres audio. Vous pouvez convertir vos e-books en livres audio de haute qualité en quelques étapes. »

Chez Apple, une certaine Madison lit une sélection de livres audio. Derrière ce prénom, pas d'actrice ou d'acteur, mais une voix numérique dont le ton est inspiré de la diction humaine...

Précarité et réduction des coûts

Du côté des acteurs et des actrices professionnels, on s'inquiète de ces développements, qui font craindre, à terme, un remplacement pur et simple de l'humain par la machine.

« Le coût et le temps nécessaires à la production d’une œuvre audio constituent le principal écueil, en particulier lorsqu’il s’agit de marchés non anglophones. Pour un éditeur, l’opportunité est vaste », assurait ainsi Taylan Kamis, cofondateur et PDG de DeepZen, entreprise spécialisée dans la synthèse vocale automatisée et améliorée par l'IA.

La réduction des coûts serait donc l'argument ultime, et tant pis pour les professionnels. Pour l'instant, toutefois, les éditeurs du secteur tiennent un tout autre discours : pour eux, pas question de tout confier aux robots.

« La qualité n’est pas encore là, seulement une fonctionnalité, ce qui ne serait pas rendre service aux auteurs », estimait Valérie Levy-Soussan, PDG de la maison Audiolib, auprès d'ActuaLitté. « Le livre audio est tout autre chose, et il suffit d’écouter un texte lu par des comédiens professionnels ou par des auteurs pour s’en rendre compte. »

Les voix d'outre-tombe

Dans le domaine de la vidéo, voire du cinéma, les outils reposant sur l'intelligence artificielle sont utilisés pour « rajeunir » ou créer de toutes pièces les interprétations d'acteurs et actrices disparues, ou plus simplement absentes du plateau de tournage.

En 2021, la société Deepcake, spécialisée dans la création de vidéos avec l’intelligence artificielle, avait utilisé sa technologie pour insérer le visage de l'acteur Bruce Willis dans une publicité russe. Deepcake avait incrusté ses traits sur la tête d'un comédien, sans que Willis ne mette jamais un pied sur le tournage. L'Américain avait accordé des droits d'exploitation sur son image, strictement pour cette réclame.

La saga Star Wars, où la présence de tels ou tels personnages est parfois indispensable pour assurer la continuité du récit, a rajeuni l'acteur Mark Hamill pour la série The Mandalorian et « recréé » l'actrice Carrie Fisher après sa disparition, en 2016, pour quelques scènes dans l'épisode 9, en 2019.

Enfin, l'illustre et terrifiant Dark Vador, doublé par l'acteur James Earl Jones pour toutes ses apparitions, pourra désormais l'être par une voix de synthèse calqué sur la sienne. Il a signé un accord avec Disney pour que la société Respeecher utilise des lignes de dialogue afin de créer un double automatisé de sa voix, pourtant unique à plus d'un titre.

Dans ce secteur décidément très concurrentiel, Sony Music Entertainment a choisi une société japonaise, CoeFont, créée en 2020, pour créer des livres audio lus par des acteurs et actrices célèbres. Ou plutôt par une copie fidèle de leurs voix, générée par l'intelligence artificielle.

Parmi les « lecteurs » de ces ouvrages diffusés par le label Yomibito, Kenji Utsumi, la voix japonaise de Raoh dans Ken le Survivant ou d'Odin pour Saint Seiya. Décédé en 2013, il fait pourtant son retour d'outre-tombe pour une petite séance de lecture à voix haute...

Nouvelle exploitation en vue

Comme nous l'avons noté, les législateurs courent un peu derrière les développements fulgurants de l'intelligence artificielle. Toutefois, il ne fait aucun doute que les acteurs, actrices et autres professionnels se soucient des exploitations futures de leur travail, et que les recours éventuels aux intelligences artificielles s'inviteront à terme dans les contrats de cession de droits.

À LIRE: Copyright : merci de distinguer le robot de l'humain

D'ailleurs, même les plus grosses entreprises commencent à revenir sur un usage totalement débridé des contenus audio. Pour sa voix Madison, Apple s'appuyait, grâce à un accord avec le distributeur Findaway, sur des livres audio lus par des acteurs et des actrices... Face à l'indignation d'une profession, la multinationale a suspendu ces usages, le temps de trouver un terrain d'entente.

CoeFont assure qu'il ne suffit que d'un quart d'heure d'enregistrement vocal pour produire une synthèse vocale convaincante. Si la promesse commerciale est tenue, de nombreux auteurs du XXe siècle, dont les voix ont été captées par la radio ou la télévision, accéderaient à l'immortalité plus sûrement qu'à l'Académie française...

Barthes déjà de retour

En France, des chercheurs de l’IRCAM (l’Institut de Recherche et Coordination Acoustique/Musique) et du Sorbonne Center for Artificial Intelligence, travaillaient déjà à ce modèle de deep voice. « Voilà quelques années, nous avions reconstitué la voix d’André Dussollier, pour lui faire lire La Recherche du Temps perdu. Le comédien, fasciné par notre réalisation, était venu nous rencontrer pour l’entendre de ses propres oreilles », nous racontait Nicolas Obin, de l’IRCAM.

Ou encore celle de Roland Barthes, reconstituée dans « un résultat bluffant ».

Photographie : illustration, Juhan Sonin, CC BY 2.0