Exclusif : YouTube révèle comment il peut vous faire parler des langues que vous ne connaissez pas

Exclusif : YouTube révèle comment il peut vous faire parler des langues que vous ne connaissez pas

La technologie pour le changement

Cette histoire fait partie de Tech for Change : une série en cours dans laquelle nous mettons en lumière les utilisations positives de la technologie et montrons comment elles contribuent à rendre le monde meilleur.

Mis à jour il y a moins d'une minute

Ce serait un euphémisme de dire que l’industrie du contenu vidéo se trouve actuellement à un point d’inflexion. D’un côté, l’IA dynamise le potentiel créatif des créateurs de contenu, mais de l’autre côté de l’océan, le problème de la dérive de l’IA et de la désinformation persiste. Cependant, le potentiel de l’IA ne peut être ignoré.

Les gens de YouTube en font bon usage en mettant l'accent sur l'accessibilité et le réalisme. Alors, quelle est la prochaine étape ? Faire bouger les lèvres naturellement au rythme de n'importe quelle langue, même si l'orateur de la vidéo ne la parle pas. S'appuyant sur la fonctionnalité de doublage automatique lancée l'année dernière, l'équipe a désormais mis au point la nouvelle fonctionnalité de synchronisation labiale alimentée par l'IA.

L’audio traduit automatiquement s’est considérablement amélioré au cours des derniers trimestres et semble désormais presque naturel. Les aperçus audio dans NotebookLM de Google en sont un excellent exemple. Mais quand il s’agit de vidéos, elles échouent parce que le mouvement des lèvres ne correspond tout simplement pas à ce que dit l’orateur avec une version traduite du script.

C'est assez choquant et rebutant. La fonction de synchronisation labiale basée sur l'IA veut surmonter cette dissonance audiovisuelle. Et d’après les échantillons que j’ai vus jusqu’à présent, ils semblent étrangement naturels. J'ai rencontré Buddhika Kottahachchi, responsable produit YouTube, Autodubbing, pour comprendre comment la synchronisation labiale a été développée, son impact et le chemin à parcourir.

Creuser le côté technique

Moins d'un an après son lancement, la fonction de doublage automatique de YouTube a été utilisée pour doubler plus de 60 millions de vidéos dans 20 langues. Mais conserver un ton naturel avec toutes les nuances d’un discours conversationnel, puis l’associer à des mouvements de lèvres réalistes, est un tout nouveau défi.

En surface, Kottahachchi me dit que le système de synchronisation labiale « modifie les pixels sur l'écran pour qu'ils correspondent au discours traduit ». Il s'agit d'une pile technologique personnalisée, me dit le dirigeant de Google, ajoutant qu'ils devaient développer une compréhension 3D du monde, de la forme des lèvres, des dents, de la posture et du visage.

Pour l’instant, la technologie est adaptée au Full HD (1080), mais n’est pas adaptée aux vidéos 4K pour le moment. « Mais en général, cela devrait fonctionner avec les résolutions vidéo que vous téléchargez », souligne-t-il. En ce qui concerne la prise en charge linguistique, la fonction de synchronisation labiale basée sur l'IA de YouTube prend en charge l'anglais, l'espagnol, l'allemand, le portugais et le français.

C'est un pool assez restreint, mais Kottahachchi me dit que l'équipe se développe et que la synchronisation labiale prendra finalement en charge le même ensemble de langues que celui que la fonction de doublage automatique peut gérer (qui compte actuellement plus de 20 langues). À titre de comparaison, la fonction de synchronisation labiale alimentée par l'IA de Meta pour Facebook et Instagram ne prend en charge que l'anglais, l'espagnol, l'hindi et le portugais.

Désormais, la synchronisation labiale basée sur l’IA n’est pas entièrement un concept étranger. Adobe propose déjà une fonctionnalité de synchronisation labiale automatique. Il existe ensuite des options tierces telles que HeyGen, qui prétendent le faire gratuitement. Mais lorsqu’il s’agit de YouTube, nous parlons d’un système intégré à grande échelle sur une plateforme où 20 millions de vidéos sont mises en ligne quotidiennement.

Le poisson AI Babel pour votre visage

Alors, quelle est la prochaine étape en termes de disponibilité ? « Nous ne sommes pas prêts à faire des déclarations générales sur l'ampleur avec laquelle nous le rendrons disponible, mais nous voulons le rendre disponible à davantage de créateurs et comprendre les contraintes de calcul et la qualité », me dit Kottahachchi. Et cela nous amène à la question cruciale du coût.

Lorsque je me suis renseigné à ce sujet, le responsable de YouTube m'a répondu qu'il ne pouvait pas faire de prédictions sur les frais impliqués, voire pas du tout. Cela explique également pourquoi la fonctionnalité fait toujours partie d'un projet pilote parmi un petit groupe de testeurs de confiance pour comprendre le marché et calculer les coûts. Pour rappel, il s’agit d’une mise en œuvre complexe de l’IA basée sur la vision.

Ainsi, tout comme les vidéos générées par l’IA, dans lesquelles vous pouvez créer quelques clips gratuitement mais devez payer pour une résolution ou des tentatives plus élevées, YouTube devra prendre en compte les coûts de calcul et décider du déploiement. Mais du point de vue d'un créateur, si je recherche une portée plus large, je paierais probablement les frais d'abonnement.

Le dilemme de l’IA

Depuis que les visuels de l’IA ont commencé à inonder Internet, le débat autour de l’authenticité et de la divulgation équitable s’est intensifié. « Qu'est-ce qui est réel ? » Les utilisateurs des médias sociaux ont posé cette question avec plus de ferveur peu de temps après que les vidéos étrangement réalistes générées par l'application Sora d'OpenAI ont commencé à apparaître.

Ces vidéos ont un filigrane visible, mais il existe déjà des outils gratuits et payants qui supprimeront l'étiquette Sora des clips générés par l'IA. Ou tout autre générateur de contenu IA, d'ailleurs. Google, l’un des plus grands développeurs et utilisateurs de l’IA, ne le sait que trop bien.

La société a été l'un des premiers leaders dans la course aux empreintes digitales de l'IA avec son système SynthID, et a également lancé un outil SynthID Detector plus tôt cette année pour aider les utilisateurs à vérifier l'origine du contenu multimédia.

Les vidéos YouTube qui s'appuient sur la fonction de synchronisation labiale basée sur l'IA de Google adopteront une approche encore plus prudente. « Nous aurons une divulgation appropriée indiquant que l'audio et la vidéo de cette vidéo ont été créés ou modifiés de manière synthétique », me dit Kottahachchi. « Le contenu vidéo lui-même est également pris en compte. »

Les informations textuelles apparaîtront dans la zone de description sous le titre des vidéos YouTube, tout comme elles apparaissent pour les vidéos ayant utilisé le système de doublage automatique. Mais comment les autres plateformes vont-elles traiter les vidéos YouTube doublées par l’IA et synchronisées sur les lèvres si un créateur les publie sur Instagram ou TikTok ?

Les algorithmes vont-ils se réchauffer ?

TikTok a récemment annoncé qu'il étiqueterait les vidéos « réalisées ou modifiées » à l'aide d'outils d'IA, et qu'il prendrait également leurs empreintes digitales afin que les utilisateurs puissent vérifier leurs origines à l'aide de l'outil Verify de C2PA. Meta a mis en place un système similaire. Alors, quel est le sort des vidéos éditées par l’IA qui sont publiées sur d’autres plateformes de vidéos sociales ?

Seront-ils déclassés par algorithme ou empêchés d'apparaître dans certains flux ? La situation est un peu délicate et imprévisible. « C'est quelque chose que nous suivons de près, mais c'est un peu tôt car les plateformes ont fait des déclarations, mais nous n'avons pas vu comment elles sont mises en œuvre efficacement », me dit-il. « En général, nous traduisons des traductions, mais pas du nouveau contenu. »

J'ai également évoqué le problème des mauvais acteurs utilisant des vidéos de créateurs sans leur consentement, traduisant l'audio et les diffusant depuis une autre chaîne ou plateforme. Le doublage automatique et la synchronisation labiale de l'IA rendent techniquement cet acte sans scrupules plus facile à exécuter, mais il ne se transformera probablement pas en chaos total.

« Si votre image est utilisée ailleurs sur la plateforme, vous pouvez nous en parler et nous demander de la retirer », m'a dit Kottahachchi. Il serait intéressant de voir comment le doublage automatique, l’audio expressif et les vidéos synchronisées sur les lèvres rendront l’expérience YouTube plus diversifiée. En apparence, cela ressemble à une victoire.

J'ai hâte de me voir parler en espagnol, même si j'ai abandonné ma séquence Duolingo il y a des années.

Rate this post
Total
0
Shares
Previous Post
Vos rappels Google Keep viennent de trouver une nouvelle place dans Google Tasks

Vos rappels Google Keep viennent de trouver une nouvelle place dans Google Tasks

Next Post
La refonte expressive et intuitive de YouTube est arrivée, mais beaucoup ne sont pas impressionnés

La refonte expressive et intuitive de YouTube est arrivée, mais beaucoup ne sont pas impressionnés

Related Posts