Les écouteurs sans fil Pixel Buds de Google ont offert une installation de traduction fantastique en temps réel depuis un certain temps maintenant. Au cours des dernières années, des marques telles que Timkettle ont offert des écouteurs similaires aux clients commerciaux. Cependant, toutes ces solutions ne peuvent gérer qu'un seul flux audio à la fois pour la traduction.
Les gens de l'Université de Washington (UW) ont développé quelque chose de vraiment remarquable sous la forme d'écouteurs basés sur l'IA qui peuvent traduire la voix de plusieurs haut-parleurs à la fois. Considérez-le comme un polyglotte dans un bar bondé, capable de comprendre le discours des gens autour de lui, parlant dans différentes langues, tout à coup.
L'équipe fait référence à son innovation comme une traduction de la parole spatiale, et elle vient à la vie gracieuseté des écouteurs binauraux. Pour les personnes inconscientes, l'audio binaural essaie de simuler les effets sonores de la façon dont les oreilles humaines les perçoivent naturellement. Pour les enregistrer, les micros sont placés sur une tête factice, à part à la même distance que les oreilles humaines de chaque côté.
L'approche est cruciale car nos oreilles n'entendent pas seulement le son, mais ils nous aident également à évaluer la direction de son origine. L'objectif primordial est de produire une scène sonore naturelle avec un effet stéréo qui peut fournir une sensation de concert en direct. Ou, dans le contexte moderne, l'écoute spatiale.
Le travail est gracieuseté d'une équipe dirigée par le professeur Shyam Gollakota, dont le répertoire prolifique comprend des applications qui peuvent mettre des GPs sous-marines sur les montres intelligentes, transformant les coléoptères en photographes, les implants cérébraux qui peuvent interagir avec l'électronique, une application mobile qui peut entendre l'infection, et plus encore.
Comment fonctionne la traduction multi-haut-parleurs?
«Pour la première fois, nous avons préservé le son de la voix de chaque personne et la direction dont il vient», explique Gollakota, actuellement professeur à la Paul G. Allen School of Informatique & Engineering de l'Institut.
L'équipe compare sa pile à un radar, alors qu'elle entre en action en identifiant le nombre de conférenciers dans l'environnement et en mettant à jour ce nombre en temps réel à mesure que les gens entrent et sortent de la plage d'écoute. L'approche entière fonctionne sur disque et n'implique pas d'envoyer des flux de voix d'utilisateur à un serveur cloud pour la traduction. Yay, intimité!
En plus de la traduction de la parole, le kit «maintient également les qualités expressives et le volume de la voix de chaque locuteur». Des ajustements de plus, directionnels et d'intensité audio sont effectués lorsque le haut-parleur se déplace à travers la pièce. Fait intéressant, Apple développera également un système qui permet aux AirPods de traduire l'audio en temps réel.
Comment tout prend vie?
L'équipe UW a testé les capacités de traduction des écouteurs AI dans près d'une douzaine de paramètres extérieurs et intérieurs. En ce qui concerne les performances, le système peut prendre, traiter et produire un son traduit en 2 à 4 secondes. Les participants au test semblaient préférer un retard d'une valeur de 3 à 4 secondes, mais l'équipe travaille pour accélérer le pipeline de traduction.


Jusqu'à présent, l'équipe n'a testé que des traductions espagnoles, allemandes et françaises, mais ils espèrent en ajouter plus à la piscine. Techniquement, ils ont condensé la séparation des sources aveugles, la localisation, la traduction expressive en temps réel et le rendu binaural en un seul flux, ce qui est un exploit assez impressionnant.
En ce qui concerne le système, l'équipe a développé un modèle de traduction vocale capable de fonctionner en temps réel sur un silicium Apple M2, atteignant une inférence en temps réel. Les tâches audio ont été gérées par une paire d'écouteurs WH-1000XM4 de Sony et un micro USB binaural de présence sonique SP15C.
Et voici la meilleure partie. «Le code du dispositif de preuve de concept est disponible pour que d'autres puissent s'appuyer», explique le communiqué de presse de l'institution. Cela signifie que la communauté du bricolage scientifique et open source peut apprendre et baser des projets plus avancés sur les fondations présentées par l'équipe UW.