Adieu synthétiseur robotique de voix : Google expérimente une version avancée de son traducteur qui parlera avec notre voix, mais dans une autre langue ! Un traducteur vocal qui ne traduira pas seulement ce que nous disons dans un futur proche. En effet, selon les derniers travaux de recherches en intelligence artificielle de Google AI, il le traduira un texte en utilisant notre propre voix, au lieu de recourir à un synthétiseur artificiel de voix. L’objectif ? La personne a qui s’adressera le traducteur semblera nous entendre parler. Ce n’est aujourd’hui plus de la science-fiction, mais…. Translatotron, la dernière invention sur laquelle les ingénieurs de Google AI travaillent.
Qu’est ce que Translatotron pourra faire ?
Les systèmes de traduction utilisés aujourd’hui, dont Google Traduction par exemple, sont basés sur trois phases distinctes : la reconnaissance automatique de la parole pour transformer la parole source en texte, la traduction automatique du texte écrit de la langue source vers la langue cible, et enfin la synthèse vocale (TTS) pour produire de la parole artificielle dans la langue cible du texte traduit.
Transalatotron fait quelque chose de beaucoup plus complexe : il utilise l’intelligence artificielle pour modifier sa voix sur les mêmes fréquences que celle du locuteur, reproduisant son empreinte vocale lorsqu’il doit assurer la traduction d’un mot parlé. Par rapport aux systèmes traditionnels, tout se passe de manière plus rapide et plus directe, c’est-à-dire avec un processus qui comporte moins de phases (et donc une moindre probabilité de générer des erreurs).
Comment ça marche ?
Translatotron utilise un réseau neuronal (un modèle mathématique inspiré du réseau neuronal humain) formé pour analyser le spectrogramme d’entrée vocale (c’est-à-dire la représentation graphique de la voix réelle du locuteur) et produit les spectrogrammes du contenu traduit dans la langue cible. Google utilise avec ce procédé high-tech tout son savoir acquis dans l’intelligence artificielle, et démontrer une nouvelle fois sa capacité à innover en permanence.
Pour mener à bien sa tâche, le système de traduction, utilise deux composants : un vocodeur (un décodeur qui transforme un signal audio en code) et un encodeur, qui a pour tâche de reproduire le caractère de la voix du locuteur original dans le discours traduit synthétique. Il s’agit d’une phase de formation au cours de laquelle le système apprend à traduire d’une langue à l’autre à partir de l’enregistrement des phrases prononcées dans la langue source et la langue cible.
Quels sont les avantages d’un tel traducteur ?
En plus des avantages en termes de rapidité et de précision de traduction, cette approche promet d’obtenir des traductions plus naturelles, tout en conservant des signaux non verbaux importants tels que le ton, le timbre et les accents en traduction vocale. Translatotron est actuellement en phase expérimentale. Dans les premiers tests, les chercheurs n’ont expérimenté que la traduction de l’espagnol vers l’anglais et vice versa. En effet, il s’agit des deux langues les plus parlées dans le monde et aussi celles sur lesquelles Google Traduction est le plus efficace aujourd’hui.
À quoi s’attendre dans le futur ?
Les premiers résultats ont déjà été rendus publics : entre autres curiosités, et travaux de recherche, vous pouvez écouter l’ensemble des voix originales utilisées pour l’apprentissage (en espagnol et en anglais), avec leurs traductions lues par des synthétiseurs qui imitent la voix.
Translatotron est un projet prometteur, mais encore en phase expérimentale. Toutefois, on peut déjà deviner comment il pourrait bientôt rendre les interactions plus fluides dans une langue étrangère, capturant et reproduisant certaines des nuances qui sont perdues quand une voix robotique synthétise le texte dans un discours. Un avenir prometteur, que nous sommes très pressés de voir arriver sur le marché !