La integración perfecta de las capacidades de inteligencia artificial de PaLM 2 en todo el ecosistema de Google, incluido Bard, ha sido un tema importante en el E/S de Google 2023 evento. Aunque Google cree que hay algunas funciones que no deberían lanzarse al instante.
Durante el discurso de apertura de Google I/O, el vicepresidente sénior de tecnología y sociedad de la empresa, James Manyika, expresó su preocupación por las posibles tensiones entre la desinformación y algunas capacidades de IA, es decir, la tecnología que está detrás de las falsificaciones profundas.
A lo que se refiere son los modelos de lenguaje que usan los deepfakes para doblar voces en videos, ya sabes, en los que el monólogo de un actor famoso de uno de los mejores programas de televisión o las mejores películas se cambia repentinamente por sincronización de labios.
Como resultado, Google está tomando algunas medidas para configurar lo que denominó “barandillas” para evitar el uso indebido de algunas de estas nuevas funciones al dejar artefactos en fotos y videos, como marcas de agua y metadatos. Una nueva herramienta que será enormemente útil y beneficiosa, pero que fácilmente podría ser mal utilizada, es un prototipo que Google está lanzando a un número determinado de socios, llamado “traductor universal”.
El traductor universal de Google es un servicio experimental de doblaje de video con IA que traduce el habla en tiempo real, lo que le permite leer instantáneamente lo que alguien dice en otro idioma mientras mira un video. El prototipo se mostró durante el evento, revelando videos de una prueba que formaba parte de un curso universitario en línea creado en colaboración con la Universidad Estatal de Arizona.
El modelo funciona en cuatro etapas. En la primera etapa, la modelo relaciona los movimientos de los labios en un video con las palabras que reconoce. El segundo paso activa un algoritmo que proporciona generación de voz instantánea.
La tercera etapa del modelo utiliza la entonación, que mide el ascenso y descenso en el ritmo natural de alguien que habla, para ayudar en la traducción. Finalmente, una vez que ha replicado el estilo y ha hecho coincidir el tono de los movimientos de los labios de los oradores, lo une todo para generar la traducción.
Google dice que los primeros resultados han sido prometedores. Los estudiantes universitarios del estudio muestran un mayor número de finalizaciones en las tasas de cursos.
¿Dónde aparecerá el traductor universal?
Si bien la función de traductor universal aún no está disponible fuera de un pequeño grupo de prueba beta, es posible que una vez que Google haya probado numerosas medidas de seguridad, la implementará en servicios como YouTube y su servicio de videoconferencia Google Meet, por ejemplo.
Después de todo, poder traducir videos en vivo en tiempo real a varios idiomas podría ser una herramienta increíblemente útil. Un traductor universal no solo podría expandir la audiencia global de un canal de YouTube, sino que también podría permitir más proyectos de colaboración entre países.
Sin duda estaremos observando y esperando escuchar más sobre esta función y dónde podría usarse en el ecosistema de Google.
¿Busca más información sobre las noticias más importantes de Google I/O? Consulte nuestro blog en vivo de Google I/O 2023 para obtener un resumen detallado de lo que se anunció en el evento.