Text to speech, IA vocale, clonage par voix de synthèse : où en est la technologie en 2022 ?

Text to speech, IA vocale, clonage par voix de synthèse : où en est la technologie en 2022 ?

La synthèse vocale est une technologie qui permet d’imiter la voix humaine. Connue sous le nom de “text-to-speech technology” en anglais, la voix de synthèse permet de convertir n’importe quel texte écrit en audio. Que ce soit pour répondre à des enjeux d’accessibilité, dans les transports en commun (annonces sonores), ou pour ajouter de la voix aux vidéos et jeux vidéo, l’IA vocale a fait d’immense progrès et depuis 2020, l’usage des voix de synthèse a explosé, notamment sur les réseaux sociaux.

Retour sur son évolution, les enjeux éthiques et sa place aujourd’hui dans notre société.

Histoire et évolution de la voix de synthèse

Quelle est l’histoire de la voix de synthèse et quand a-t-elle vu le jour ? Quelle a été son évolution depuis sa création et quelle place a-t-elle aujourd’hui dans notre société et nos usages ? La voix de synthèse est aujourd’hui très répandue et n’est plus seulement réservée aux mal-voyants ou aux non-voyants, pour qui la lecture de texte et l’interaction vocale est essentielle. On la retrouve dans les réseaux sociaux, dans toutes les enceintes connectées (Google Assistant, Alexa, Siri), dans le cinéma, le GPS, les médias et même dans l’espace !

La synthèse vocale a vu le jour pour la première fois en 1791, lorsque l’inventeur hongrois Wolfgang von Kempelen imagina une “Speaking machine” (“machine parlante” en français) composée de différentes parties reproduisant et imitant les organes liées à la parole: poumons, thorax, bouche, narines. Le travail de Wolfgang von Kempelen a continué à inspirer les scientifiques durant les siècles suivants. En 1939, une université allemande reproduisait la Speaking machine de Wolfgang von Kempelen. 

Une réplique de la machine à parler de Kempelen, construite en 2007

Durant les années 1940, le premier synthétiseur vocal électronique est conçu par les laboratoires américains Bell, une révolution dans l’informatique et la technologie de synthèse vocale. Ce synthétiseur nommé “Vocoder” (contraction de “Voice Encoder”) a connu quelques évolutions au fil des années et avait pour but principal de faciliter la transmission d’appels téléphoniques et d’en réduire les coûts. L’objectif consistait à découper le signal sonore en effectuant un encodage chez l’émetteur de l’appel et un décodage du côté du destinataire. Cette opération avait pour but de réduire le taux d’informations dans les appels et donc d’économiser de la bande passante.

La technologie des laboratoires Bell a été reprise dans divers secteurs dont l’armée américaine pour communiquer de façon cryptée durant la Seconde Guerre mondiale. Les effets audio robotiques du Vocoder ont aussi été la base musicale de nombreux tubes mondialement connus comme ceux du groupe de musique électronique Daft Punk. 

Une évolution rapide de la qualité et des usages 

La transformation de contenus écrits en audio et dictés par les voix de synthèse offre de nombreux avantages :

  • Un gain de temps puisque l’audioisation (ou génération audio) se fait en quelques secondes
  • Une adaptation possible  en plusieurs langues rapidement
  • Un gain de ressources, puisque le coût de production de l’audio par voix humaine est beaucoup plus cher et régit par des droits spécifiques.

La voix de synthèse a atteint une qualité très proche de la voix humaine, les progrès en la matière ont été fulgurants, en particulier ces vingt dernières années. Aujourd’hui, on retrouve la technologie text-to-speech partout, que ce soit au travail, sur les réseaux sociaux ou lors de nos trajets. 

En France, on ne saurait parler de la voix de synthèse sans mentionner la SNCF. Depuis les années 80, l’entreprise ferroviaire nationale française travaille sur le son et l’audio, qui font partie intégrante de son identité de marque. Son design et sa signature sonore sont aujourd’hui connus de tous. Il y a quelques années, la SNCF faisait appel à l’entreprise Voxygen, un éditeur de solution de synthèse vocale personnalisée basée sur de l’intelligence artificielle, pour créer « e-Mone » et digitaliser et immortaliser la voix de Simone Hérault, le talent vocal phare de la SNCF depuis quarante ans. 

Les voix de synthèse sont aujourd’hui très utilisées en situation de mobilité, dans le train, le métro, aux passages piétons (guide audio pour les non-voyants), etc. Les entreprises de transports ont été pionnières dans l’introduction de l’audio à bord des trains ainsi que dans les gares. Dès les années 1990, la SNCF lançait son habillage sonore par voix de synthèse, une solution unique en ce qu’elle permettait d’audioiser des messages et des milliers de noms de gares et stations en un temps record, un défi impossible à réaliser avec des voix humaines. 

Les réseaux sociaux s’emparent de la voix de synthèse

L’introduction de la synthèse vocale dans les réseaux sociaux a révolutionné son usage, qui est désormais quasi systématique dans les vidéos à format court. 

Tiktok et Instagram introduisent la voix de synthèse, une option très en vogue

En décembre 2020, TikTok a introduit une nouvelle fonctionnalité « text-to-speech » permettant aux utilisateurs de faire lire un texte (sous-titré) par des voix de synthèse. Cet effet a connu un succès instantané, en particulier en raison de son côté humoristique car la voix se trompait régulièrement en lisant le texte. Deux ans après, le text-to-speech est toujours très utilisé dans les vidéos et la mauvaise prononciation est devenue partie intégrante du charme de l’application et de cette fonctionnalité. 

Près d’un an après Tiktok, Instagram lançait également son option de synthèse vocale et de modification de voix dans les Reels, son nouveau format de vidéos courtes désormais phare, afin de concurrencer l’acteur chinois. Pour les deux mastodontes des réseaux sociaux, cela a aussi permis aux internautes les plus introvertis de donner libre cours à leur créativité sans avoir à utiliser leur propre voix et à créer de la viralité avec des effets de voix robotiques, d’hélium ou d’autotune. En 2021, Tiktok est revenu à la charge en partenariat avec Disney et l’univers Marvel, en ajoutant les voix des plus grands personnages comme Chewbacca ou Stitch, à l’occasion du premier anniversaire de la plateforme de streaming Disney+. 

Cinéma, enceintes connectées : le clonage par voix de synthèse 

“Alexa raconte une histoire avec la voix de mamie”

Lors de la conférence « re:MARS » d’Amazon qui a eu lieu à Las Vegas au mois de juin 2022, Amazon a dévoilé la nouvelle fonctionnalité d’intelligence artificielle d’Alexa (l’enceinte connectée phare d’Amazon) qui lui permettra d’imiter la voix de n’importe qui simplement après avoir écouté la voix de la personne. Selon Rohit Prasad, vice-président senior d’Amazon et directeur scientifique d’Alexa, cette nouvelle technologie constitue un grand pas en avant et une manière de panser la douleur de la perte d’un être cher en permettant d’immortaliser sa voix et de l’écouter à sa guise. Lors de la démonstration de la fonctionnalité, un enfant avait demandé à Alexa si elle pouvait lire une histoire avec la voix de sa « mamie », défi relevé par l’enceinte intelligente après quelques secondes de réflexion.

“Top Gun – Maverick” recrée la voix de Val Kilmer grâce à l’IA et la voix de synthèse 

Pour réussir cet exploit, l’acteur Val Kilmer, personnage principal du premier volet de la saga Top Gun qui a perdu la voix en 2014 à cause d’un cancer de la gorge, a collaboré avec Sonantic, une société spécialisée dans l’intelligence artificielle vocale pour les films et les jeux vidéo, rachetée par Spotify en juin 2022.

Dans le film “Top Gun : Maverick”, le personnage interprété par l’acteur est également atteint d’un cancer et utilise la dactylographie pour s’exprimer. Sa seule et brève ligne de dialogue a été rendue possible grâce à la technologie de Sonantic. Fabriquée d’ordinaire à partir de scripts lus, c’est à partir de plusieurs enregistrements existants de la voix de l’acteur que les modèles d’apprentissage de la société ont permis de recréer une voix proche de celle de Val Kilmer, lui offrant ainsi un moyen de communiquer à nouveau par la voix au sein de nouveaux projets.  

Plusieurs acteurs comme Sonantic, Respeecher, Voxygen, Acapela, l’Ircam ou encore WellSaidLabs par exemple, se sont d’ailleurs spécialisés dans la création de voix personnalisées et dans le clonage de voix humaines pour proposer des voix-off dans le cinéma et les jeux vidéo.  

Des enjeux éthiques et une réglementation à établir

L’enjeu pour les sociétés de production est colossal, pouvoir réduire les coûts de production des contenus (ne pas avoir à faire déplacer des comédiens en studio ou simplifier et réduire le coût de la gestion des droits, pouvoir faire perdurer des productions post-mortem). 

En se liant directement et intimement à la voix humaine, à l’exemple d’Alexa et de Top Gun, la voix de synthèse fait naître de nouveaux questionnements éthiques et moraux. Partout dans le monde, la reproduction synthétique de visages par la vidéo et de la voix par la synthèse vocale est désormais courante. Si certains voient l’immortalisation de la voix d’un défunt comme positive et thérapeutique, il n’en demeure pas moins qu’il est nécessaire d’encadrer juridiquement ces innovations technologiques qui ont connu une croissance exponentielle ces dernières années. Pour l’instant, des textes de loi existent en ce qui concerne “la mort numérique”, à savoir le droit de la famille d’un mort de conserver ou effacer les données liées à sa présence numérique. Par ailleurs, le risque de deepfake (trucage vidéo ou sonore) et de vol d’identité (d’image comme de voix) posera de grands enjeux de sécurité et d’authentification. Il sera donc intéressant de voir comment évoluera l’adaptation de la protection de la donnée de la voix dans le RGPD, maintenant que les différentes technologies de synthèse ont gagné le domaine privé, en particulier par le biais des enceintes connectées. 

Chez ETX Studio nous suivons ces évolutions de près dans notre Observatoire de la RevoluSON et nous étudions régulièrement les différents acteurs du secteur. Au sein de notre plateforme ETX, nous avons sélectionné les meilleures voix du marché, nous les avons enrichies grâce à notre lexique de prononciation afin de permettre aux entreprises de créer des contenus audio et vidéo à partir de textes en quelques clics. Les usages sont multiples (accessibilité de site web, newsletters, veille, communications internes en audio et en mobilité). Nous transformons grâce à la voix de synthèse les sites et contenus des médias, des marques et des institutions tels que Le Figaro, La Tribune, ou encore le Sénat. Contactez-nous pour intégrer à votre tour l’audio digital à votre stratégie éditoriale pour attirer, fidéliser ou monétiser de nouvelles audiences en mobilité ou plus sensibles à la voix. 

Written by in / 11050 Views