Los deepfakes de audio están surgiendo como una nueva y poderosa herramienta en la guerra de la información durante un año de grandes elecciones en todo el mundo, a medida que proliferan en línea las herramientas de clonación de voz impulsadas por inteligencia artificial.
El lunes, la oficina del fiscal general de New Hampshire dijo que estaba investigando una posible supresión de votantes, después de recibir quejas de que una voz “generada artificialmente” con la semejanza del presidente estadounidense Joe Biden estaba llamando automáticamente a los votantes animándolos a no votar en las primarias presidenciales del estado. .
Los investigadores también han advertido que es probable que se extienda el uso de clips de voz realistas pero falsos que imitan a políticos y líderes, luego de casos en 2023 de audio supuestamente sintético creado para influir en la política y las elecciones en el Reino Unido, India, Nigeria, Sudán, Etiopía y Eslovaquia.
Los deepfakes de audio se están convirtiendo en una forma cada vez más popular de desinformación, según los expertos, debido a la llegada de herramientas de inteligencia artificial baratas y efectivas de empresas emergentes como ElevenLabs, Resemble AI, Respeecher y Replica Studios. Mientras tanto, el brazo de investigación de Microsoft anunció el año pasado el desarrollo de un nuevo modelo de IA de la empresa, VALL-E, que puede clonar una voz a partir de sólo tres segundos de grabaciones.
“Cuando se trata de manipulación visual, todo el mundo está acostumbrado a Photoshop o al menos sabe que existe”, dice Henry Ajder, experto en IA y deepfakes y asesor de Adobe, Meta y EY. “Hay mucha menos conciencia sobre cómo se puede manipular el material de audio, por lo que, en mi opinión, eso realmente nos prepara para ser vulnerables”.
En septiembre, NewsGuard, que califica la calidad y confiabilidad de los sitios de noticias, descubrió una red de cuentas de TikTok que se hacen pasar por medios de noticias legítimos y presentan voces en off generadas por inteligencia artificial que venden teorías de conspiración y desinformación política. Esto incluía una voz simulada del ex presidente estadounidense Barack Obama defendiéndose de afirmaciones infundadas que lo vinculaban con la muerte de su chef personal.
Las voces en off falsas parecían haber sido generadas por una herramienta proporcionada por ElevenLabs, respaldada por Andreessen Horowitz, mientras que los clips acumulado cientos de millones de visitas, dijo NewsGuard.
“Más del 99 por ciento de los usuarios de nuestra plataforma están creando contenido interesante, innovador y útil, pero reconocemos que hay casos de uso indebido y hemos estado desarrollando y lanzando continuamente salvaguardas para frenarlos”, dijo ElevenLabs en el momento de la el informe.
ElevenLabs, fundado hace dos años por Piotr Dabkowski y Mati Staniszewski, antiguos empleados de Google y Palantir, ofrece herramientas rudimentarias de generación de audio mediante IA con solo hacer clic en el ratón. Las suscripciones van desde $1 al mes hasta $330 al mes y más para aquellos que buscan ofertas más sofisticadas.
Los perpetradores de desinformación se han envalentonado con las herramientas de inteligencia artificial de las que fue pionera ElevenLabs, que ha cambiado la calidad del audio sintético de ser inconexo y robótico a más natural con la inflexión, la entonación y las emociones correctas, según Ajder.
“Fundamentalmente, [ElevenLabs] “Cambió el juego en términos del realismo que se puede lograr, especialmente con una pequeña cantidad de datos”, afirmó.
El mercado de herramientas de conversión de texto a voz se ha disparado durante el año pasado. Algunos, como Voice AI, ofrecen aplicaciones gratuitas y comercializan su tecnología para su uso como doblaje para bromas. Otros, como Replica Studios y Respeecher, cobran tarifas nominales a los creadores, cineastas o desarrolladores de juegos.
A menudo no está claro qué empresas se utilizan para crear deepfakes con motivaciones políticas, ya que la mayoría de las herramientas de detección no pueden identificar la fuente original. Pero la creciente prevalencia de este tipo de productos impulsados por IA está generando preocupación por posibles abusos en un espacio no regulado.
El año pasado, las agencias de inteligencia estadounidenses advirtieron en un informe que “ha habido un aumento masivo de estafas personalizadas con IA debido al lanzamiento de modelos de clonación de voz de IA sofisticados y altamente capacitados”.
Más allá de las estafas con motivación financiera, los expertos políticos ahora están haciendo sonar la alarma sobre los clips de audio virales deepfake, así como el uso de deepfakes para llamadas automáticas o campañas. “Se puede crear de manera muy económica una campaña fuerte y amplia de desinformación dirigida a personas por teléfono”, dijo AJ Nash, vicepresidente y miembro distinguido de inteligencia del grupo de seguridad cibernética ZeroFox.
Algunas de estas empresas han buscado proactivamente otras formas de contrarrestar la desinformación. Microsoft emitió una declaración ética, pidiendo a los usuarios que informen sobre cualquier abuso de su herramienta de audio de IA, afirmando que el hablante debe aprobar el uso de su voz con la herramienta. ElevenLabs ha creado sus propias herramientas de detección para identificar grabaciones de audio realizadas por sus sistemas. Otros, como Parecerseestán explorando estampar contenido generado por IA con marcas de agua inaudibles.
Durante las elecciones de 2023 en Nigeria, se difundió en las redes sociales un clip manipulado por IA que “supuestamente implicaba a un candidato presidencial de la oposición en planes para manipular las votaciones”, según el grupo de derechos humanos Freedom House.
En Eslovaquia, un audio falso del candidato de la oposición Michal Šimečka aparentemente conspirando para manipular las elecciones se volvió viral pocos días antes de las elecciones presidenciales del país en septiembre.
Sembrando aún más confusión, grupos e individuos en India y Etiopía han denunciado grabaciones de audio como falsas, solo para que otros investigadores y verificadores de datos independientes afirmaran que eran auténticas.
Los expertos advirtieron que un problema asociado es que el audio creado por IA suele ser más difícil de detectar que el vídeo. “Simplemente tienes muchas menos pistas contextuales que puedas intentar aprovechar”, dice Katie Harbath, oficial de asuntos globales de Duco Experts y ex directora de políticas públicas de Meta.
A menudo hay indicadores visuales reveladores de que un vídeo no es auténtico, como fallos en la calidad, sombras extrañas, movimientos borrosos o antinaturales.
“Las ventajas del audio [for bad actors] son que puedes ser menos preciso”, dijo Nash. “Los defectos se pueden tapar con ruido de fondo y música amortiguada”. Un deepfake del líder de la oposición británica, Sir Keir Starmer, supuestamente reprendiendo a un empleado, por ejemplo, sonó como si hubiera sido grabado en un restaurante concurrido.
Está surgiendo un mercado de detección asistida por tecnología para contrarrestar el problema. El grupo de ciberseguridad McAfee anunció este mes el Proyecto Mockingbird, una herramienta que busca anomalías en los patrones, frecuencias y amplitud del sonido, antes de brindar a los usuarios una probabilidad de si el audio es real o falso. El director de tecnología de McAfee, Steve Grobman, dijo que su herramienta de detección tiene aproximadamente un 90 por ciento de efectividad.
Nicolas Müller, científico investigador de aprendizaje automático en Fraunhofer AISEC, señaló que agregar música deliberadamente o degradar la calidad del audio también interfiere con la precisión de las herramientas de detección.
Las plataformas en línea están luchando por contener el problema. Meta ha enfrentado críticas porque prohíbe explícitamente videos manipulados diseñados para engañar, pero las mismas reglas no parecen aplicarse al audio. Meta dijo que los deepfakes de audio eran elegibles para ser verificados y serían etiquetados y degradados en los feeds de los usuarios cuando se encontraran. TikTok también ha estado invirtiendo en capacidades de etiquetado y detección.
“El deepfake de New Hampshire es un recordatorio de las muchas formas en que los deepfake pueden sembrar confusión y perpetuar el fraude”, dijo Robert Weissman, presidente del grupo sin fines de lucro de defensa del consumidor Public Citizen. “El momento político del deepfake está aquí. Los formuladores de políticas deben apresurarse a implementar protecciones o nos enfrentaremos a un caos electoral”.