L’intégration transparente des capacités d’IA de PaLM 2 dans l’écosystème Google, y compris Bard, a été un thème majeur du Google I/O 2023 événement. Bien que Google pense que certaines fonctionnalités ne devraient pas être publiées instantanément.
Lors du discours d’ouverture de Google I/O, le vice-président senior de la technologie et de la société de l’entreprise, James Manyika, a fait part de ses inquiétudes concernant les tensions potentielles entre la désinformation et certaines capacités d’IA, à savoir la technologie qui se cache derrière les contrefaçons profondes.
Ce à quoi il fait référence, ce sont les modèles de langage que les deepfakes utilisent pour doubler les voix dans les vidéos – vous savez ceux, où le monologue d’un acteur célèbre de l’une des meilleures émissions de télévision ou des meilleurs films est soudainement remplacé par la synchronisation labiale.
En conséquence, Google prend des mesures pour mettre en place ce qu’il appelle des “garde-corps” afin d’empêcher l’utilisation abusive de certaines de ces nouvelles fonctionnalités en laissant des artefacts dans les photos et les vidéos, tels que des filigranes et des métadonnées. Un nouvel outil qui sera extrêmement utile et bénéfique, mais qui pourrait facilement être utilisé à mauvais escient, est un prototype que Google déploie auprès d’un nombre défini de partenaires, appelé “traducteur universel”.
Le traducteur universel de Google est un service expérimental de doublage vidéo IA qui traduit la parole en temps réel, vous permettant de lire instantanément ce que quelqu’un dit dans une autre langue tout en regardant une vidéo. Le prototype a été présenté lors de l’événement, révélant des vidéos d’un test qui faisait partie d’un cours universitaire en ligne créé en partenariat avec l’Arizona State University.
Le modèle fonctionne en quatre étapes. Dans un premier temps, le modèle associe les mouvements des lèvres d’une vidéo aux mots qu’il reconnaît. La deuxième étape déclenche un algorithme qui fournit une génération de parole instantanée.
La troisième étape du modèle utilise l’intonation, qui mesure la montée et la descente du rythme naturel d’une personne qui parle, pour faciliter la traduction. Enfin, une fois qu’il a reproduit le style et correspond au ton des mouvements des lèvres d’un orateur, il rassemble le tout pour générer la traduction.
Google affirme que les premiers résultats sont prometteurs. Les étudiants universitaires de l’étude affichant un nombre plus élevé d’achèvements dans les taux de cours.
Où sera le traducteur universel ?
Bien que la fonction de traduction universelle ne soit pas encore disponible en dehors d’un petit groupe de test bêta, il se peut qu’une fois que Google ait testé de nombreuses protections, il la déploiera sur des services tels que YouTube et son service de visioconférence Google Meet, par exemple.
Après tout, être capable de traduire des vidéos en direct en temps réel dans plusieurs langues pourrait être un outil incroyablement utile. Non seulement un traducteur universel pourrait élargir l’audience mondiale d’une chaîne YouTube, mais il pourrait également permettre des projets plus collaboratifs entre les pays.
Nous allons certainement regarder et attendre d’en savoir plus sur cette fonctionnalité et où elle pourrait être utilisée dans l’écosystème Google.
Vous souhaitez en savoir plus sur les principales actualités de Google I/O ? Consultez notre blog en direct Google I/O 2023 pour obtenir un aperçu détaillé de ce qui a été annoncé lors de l’événement.