Des chercheurs de Columbia Engineering ont entraîné un robot ressemblant à un humain nommé Emo à synchroniser la parole et les chansons en étudiant des vidéos en ligne, montrant comment les machines peuvent désormais apprendre un comportement humain complexe simplement en l'observant.
Emo n'est pas un corps humanoïde complet mais un visage robotique très réaliste conçu pour explorer la façon dont les humains communiquent. Le visage est recouvert d'une peau de silicone et entraîné par 26 moteurs faciaux contrôlés indépendamment qui bougent les lèvres, la mâchoire et les joues.
Ces moteurs permettent à Emo de former des formes de bouche détaillées couvrant 24 consonnes et 16 voyelles, ce qui est essentiel pour la parole et le chant naturels. L'objectif était de réduire l'effet de vallée étrange, où les robots semblent presque humains mais se sentent toujours troublants parce que leurs mouvements du visage ne correspondent pas à leur voix.
Comment Emo a appris à synchroniser ses lèvres comme un humain
Le processus d’apprentissage s’est déroulé par étapes. Tout d'abord, Emo a exploré son propre visage en déplaçant ses moteurs tout en se regardant dans un miroir. Cela a aidé le système à comprendre comment les commandes motrices modifient les formes du visage.
Les chercheurs ont ensuite introduit un pipeline d’apprentissage qui relie le son au mouvement. Emo a regardé des heures de vidéos YouTube de personnes parlant et chantant, tandis qu'un modèle d'IA analysait la relation entre l'audio et le mouvement visible des lèvres.
Au lieu de se concentrer sur le langage ou le sens, le système a étudié les sons bruts de la parole. Un transformateur d’action faciale a converti ces modèles appris en commandes motrices en temps réel.
Cette approche a permis à Emo de synchroniser ses lèvres non seulement en anglais, mais également dans des langues pour lesquelles il n'avait jamais été formé, notamment le français, l'arabe et le chinois. La même méthode a fonctionné pour le chant, qui est plus difficile en raison des voyelles étirées et des changements de rythme.
Les chercheurs affirment que cela est important car les futurs robots devront communiquer naturellement s’ils veulent travailler aux côtés des humains. Cette avancée est survenue alors que l’intérêt pour les robots destinés aux maisons et aux lieux de travail augmente rapidement.
Au CES 2026, cet élan était pleinement visible, avec des démonstrations allant de l'humanoïde Atlas de Boston Dynamics, prêt à entrer sur le lieu de travail, au robot domestique de SwitchBot qui peut cuisiner des repas et faire votre lessive, et le prochain robot assistant domestique de LG conçu pour faciliter la vie quotidienne.
Ajoutez à cela des avancées telles que la peau artificielle qui confère aux robots une sensibilité semblable à celle des humains, et associée à une synchronisation labiale réaliste, il est facile de voir à quel point les robots commencent à se sentir moins comme des machines et davantage comme des compagnons sociaux. Emo est encore un projet de recherche, mais il montre comment les robots pourraient un jour acquérir des compétences humaines de la même manière que nous le faisons en regardant et en écoutant.








