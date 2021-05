Deep Voice est un événement qui se déroulera les 23 et 24 juin prochain : il se consacre à la voix et l’intelligence artificielle, en rassemblant des communautés « intéressées par les technologies vocales. Il ne s’agit pas simplement de voix de synthèse, mais du traitement du langage naturel, de la reconnaissance vocale… de comment introduire des sentiments dans l’expression d’une intelligence artificielle », glisse malicieusement Xavier Fresquet.

Et pour ce faire, Sorbonne Université convie évidemment des invités de luxe, venus tant du secteur public que du privé. « Nous travaillons de concert pour favoriser les aspects de recherches », reprend le directeur adjoint du SCAI. Concrètement un événement hybride, proposant une conférence plus accessible, et gratuite, le matin et des ateliers l’après-midi, accessibles sur inscription. « Les conférences du matin sont au contraire moins théoriques — de notre point de vue scientifique —, c’est-à-dire accessibles au grand public autour de questions générales sur l’évolution des technologies vocales. Par contraste, les ateliers sont eux plus techniques », précise Nicolas Oblin, de l’IRCAM.

Et assez logiquement, on retrouve des opérateurs comme Amazon, avec l’intervention de Thomas Drugman qui évoquera les progrès réalisés par Alexa, l’assistant intelligent de l’enceinte Echo.

Parole d'Évangile numérique

« L’exemple d’Alexa est symptomatique : il s’agit d’une IA qui est vouée — comme Siri chez Apple, ou l’enceinte Google — à entretenir des liens avec des humains. L’un des enjeux est donc de rendre la voix la plus naturelle possible, autrement dit qu’elle soit en mesure de faire passer des sentiments. Ce qui implique, pour les scientifiques, de définir comment sont perçues les émotions, et comment les retranscrire », reprend Xavier Fresquet.

Nicolas Obin insiste : « La voix est un secteur interdisciplinaire important ». Maître de conférences à la Faculté des Sciences de Sorbonne Université et chercheur dans l’équipe Analyse et Synthèse des Sons à l’IRCAM, ce dernier travaille tout particulièrement sur la modélisation des signaux sonores. Avec la perspective de façonner des « robots expressifs ». Et au cours de la présentation de ce 23, ce sera bien la question de l’expressivité qui reviendra. « En la matière, les demandes des entreprises sont permanentes : l’utilisation de techniques vocales se retrouve dans un champ d’applications extrêmement vaste ». Car Alexa, pour significative qu’elle soit, ne représente qu’une portion infime des possibles : on peut songer au domaine médical, notamment.

La seconde journée abordera le rapport entre humain et machine, ou comment la simulation des émotions va-t-elle modifier notre rapport affectif aux machines et notre immersion dans un monde social artificiel ?

Mêler les communautés académiques et le secteur privé n’a rien de nouveau : ce sont les champs de recherches qui, en matière de voix, ne cessent d’évoluer. « Aujourd’hui, un assistant personnel comme Alexa est en mesure de lire des ouvrages audio. Mais on est encore loin de Fabrice Luchini qui déclame La Fontaine, raconte Flaubert ou fait revivre le Voyage au bout de la nuit de Louis-Ferdinand Céline. Nos problématiques sont simples : comment faire se rejoindre ces deux mondes ».

Cloner une voix, le grand défi

Et à ce titre, l’IRCAM s’est déjà amusé, à plusieurs reprises, à fabriquer des voix. « Voilà quelques années, nous avions reconstitué la voix d’André Dussollier, pour lui faire lire la Recherche du Temps perdu. Le comédien, fasciné par notre réalisation, était venu nous rencontrer pour l’entendre de ses propres oreilles », explique Nicolas Obin. Mais le meilleur acteur de 1998 pour On connaît la chanson n’a pas à craindre d’être remplacé : « L’avantage de la lecture humaine, pour longtemps encore, c’est sa capacité, dans l’interprétation, à créer de l’inattendu. Aujourd’hui, aucune machine n’est codée pour faire cela : si elle y parvient, c’est totalement par hasard », s’amuse-t-il.

Ce qui n’empêche pas les chercheurs de fouiller : c’est le cas notamment avec la reconstitution de la voix de Roland Barthes, un projet de performances opéré par Nicolas Frize. « Le résultat est bluffant », s’exclame Nicolas Obin. La performance doit être présentée dans un concert, en juin, au Centre Pompidou… avis, avis. Le tout en partenariat avec l’IRCAM, qui s’est chargé de la numérisation de la voix. « Mais nous répondons souvent à des demandes d’artistes, avec parfois des projets bien plus farfelus : cloner une identité vocale, c’est notre truc ! ».

Tout en jonglant avec des critères stricts… à commencer par le droit d’auteur. « La propriété intellectuelle s’applique sur les outils, mais la voix relève, paradoxalement, du droit à l’image. Nous ne pourrions pas, sans l’accord des ayants droit, nous servir d’une voix — celle de Barthes, par exemple — pour une publicité. De même, le vibrato d’Elvis a été reconnu comme une partie de son image. Il lui appartient, en ce qu’il rend le chanteur identifiable ».

Aller contre reviendrait à produire le Deepfake vocal ? « Plus exactement ce serait une contrefaçon d’identité et une fraude », insiste le maître de conférences.

Aux âmes bien enregistrées, la valeur n'attends pas, etc.

Mais si l’on obtient l’accord, les déclinaisons deviennent fantastiques : imaginons que la voix d’Agatha Christie, dont on conserverait les caractéristiques de la langue d’origine, puisse s’exprimer en français, italien, espagnol, tout en conservant son timbre et une délicieuse prononciation britannique. « Ce type de projet existe, oui. Mais pour y parvenir, quelle que soit l’application, nous avons besoin de voix isolées, avec un son d’excellente facture », reprend Nicolas Obin.

« Quand la qualité sonore est dégradée, le rendu en souffre : or, des enregistrements réalisés dans les années 20, par exemple, ont été effectués dans des pièces réverbérées, et les supports analogiques d’alors provoquent de véritables saturations. »

À ce titre, « le problème du bruit d’environnement, du changement d’acoustique (intérieur, extérieur, etc.) et de la réverbération sont des problèmes toujours d’actualité. Le problème des enregistrements anciens est le matériel et notamment les supports d’enregistrements, ne serait-ce que pour la bande passante extrêmement limitée, les phénomènes de distorsion analogique, et la dégradation de ces supports dans le temps ».

Il n’est pas aisé, même pour une Intelligence artificielle, d’avaler des données hétérogènes et de ressortir une synthèse vocale de qualité.

« Deep Voice n’a cependant pas vocation à n’être qu’un laboratoire technologique. Nous pourrions très bien imaginer de travailler avec des partenaires de l’édition sur le développement du livre audio », reprend Xavier Fresquet. Et tout cela, en bonne intelligence, artificielle ou non… (réservation et renseignements)

