Les clones “visuels” (vidéos) sont sans doute pour bientôt. Mais les clones vocaux sont pour demain matin.
C’est ce que nous rappelle un article récent en anglais.
Selon le journaliste, James Vincent qui a testé différents outils et prototypes, cette technologie est désormais au point et devrait faire irruption dans nos vie d’ici peu.
Reste à savoir si elle ne va pas poser un certains nombre de problèmes éthiques.
Le travail de synthèse vocale s’est considérablement amélioré ces dernières années, grâce aux progrès de l’apprentissage automatique. Auparavant, les voix synthétiques les plus réalistes étaient créées en enregistrant l’audio d’un acteur vocal humain. On découpait son discours en sons et on les rassemblait comme des lettres dans une demande de rançon pour former de nouveaux mots. Désormais, les réseaux de neurones peuvent être entraînés, sur des données non triées de leur voix cible, pour générer l’audio brut d’une personne parlant à partir de zéro.
Les résultats finaux sont plus rapides, plus faciles et plus réalistes. La qualité n’est certainement pas parfaite lors du déploiement direct de la machine (bien que des ajustements manuels puissent améliorer cela), mais ils ne feront que s’améliorer dans un avenir proche.
Des dizaines de startups proposent déjà des services similaires. Il suffit de rechercher sur Google « synthèse vocale AI » ou « AI voice deepfakes » et vous verrez à quel point la technologie est banale, disponible dans les magasins spécialisés qui se concentrent uniquement sur la synthèse vocale, comme Resemble.AI et Respeecher, et également intégrée dans des grandes plates-formes, comme Veritone (où la technologie fait partie de son répertoire publicitaire) et Descript (qui l’utilise dans le logiciel qu’elle fabrique pour l’édition de podcasts).
Ces clones de voix commencent à être utilisés dans des projets sérieux.
En juillet, un documentaire sur le chef cuisinier américain Anthony Bourdain (décédé en 2018) a suscité la controverse lorsque les créateurs ont révélé qu’ils avaient utilisé l’IA pour créer l’audio, à partir d’une lettre qu’il avait écrite. En août, la startup Sonantic a annoncé qu’elle avait créé un clone de voix AI de l’acteur Val Kilmer, dont la voix a été endommagée en 2014 après avoir subi une trachéotomie dans le cadre de son traitement contre un cancer de la gorge.
Ces exemples interrogent également sur certaines des dimensions sociales et éthiques de cette technologie. Le cas d’utilisation de Bourdain a été décrié comme une exploitation par beaucoup (d’autant plus que son utilisation n’a pas été divulguée dans le film), tandis que le travail de Kilmer a été généralement salué, la technologie étant louée pour fournir ce que d’autres solutions ne pouvaient pas.
Les applications célèbres de clones vocaux seront probablement plus importantes au cours des prochaines années, les entreprises espérant que les célébrités voudront augmenter leurs revenus avec un minimum d’effort en clonant et en louant leurs voix.
Une entreprise, Veritone, a lancé un tel service plus tôt cette année , affirmant qu’il permettrait aux influenceurs, aux athlètes et aux acteurs de multiplier leur voix artificielle pour des usages comme les mentions et les identités radio, sans jamais avoir à entrer dans un studio.
“Nous sommes vraiment enthousiasmés par ce que cela signifie pour une multitude d’industries différentes, car la partie la plus limitante de l’usage de la voix de quelqu’un est le temps disponible de l’individu”, expliquait Sean King, vice-président exécutif de Veritone.
De telles applications ne sont pas encore très répandues (ou si elles le sont, elles ne sont pas largement évoquées), mais cela semble être un moyen évident pour les célébrités de gagner de l’argent. Bruce Willis, par exemple, a déjà autorisé son image à être utilisée comme deepfake visuel dans les publicités pour téléphones mobiles en Russie . L’accord lui permet de gagner de l’argent sans jamais quitter la maison, tandis que la société de publicité obtient un acteur infiniment disponible (et, notamment, une version beaucoup plus jeune de Willis, tout droit sorti de l’époque Die Hard ).
Dans l’ici et maintenant, la technologie de synthèse vocale est déjà intégrée à des outils comme le logiciel d’édition de podcast éponyme construit par la société américaine Descript. La fonction «Overdub» de la société permet à un podcasteur de créer un clone IA de sa voix afin que les producteurs puissent apporter des modifications rapides à l’audio, en complétant l’édition basée sur la retranscription originale.
Il y a aussi des dangers potentiels. Les fraudeurs ont déjà utilisé des clones vocaux pour inciter les entreprises à transférer de l’argent sur leurs comptes , et d’autres utilisations malveillantes sont probablement encore à venir.
Pour en savoir plus :
l’article (en anglais) du site theverge.com