Más de 100 modelos maliciosos de IA/ML encontrados en la plataforma Hugging Face


04 de marzo de 2024Sala de redacciónSeguridad/vulnerabilidad de la IA

Se han descubierto hasta 100 modelos maliciosos de inteligencia artificial (IA)/aprendizaje automático (ML) en la plataforma Hugging Face.

Estos incluyen casos en los que cargar un archivo de pepinillo conduce a la ejecución de código, dijo la firma de seguridad de la cadena de suministro de software JFrog.

«La carga útil del modelo otorga al atacante un caparazón en la máquina comprometida, permitiéndole obtener control total sobre las máquinas de las víctimas a través de lo que comúnmente se conoce como ‘puerta trasera'», dijo el investigador senior de seguridad David Cohen. dicho.

«Esta infiltración silenciosa podría potencialmente otorgar acceso a sistemas internos críticos y allanar el camino para violaciones de datos a gran escala o incluso espionaje corporativo, impactando no solo a usuarios individuales sino potencialmente a organizaciones enteras en todo el mundo, dejando a las víctimas completamente inconscientes de su estado comprometido. «.

La seguridad cibernética

Específicamente, el modelo deshonesto inicia una conexión de shell inversa a 210.117.212[.]93, una dirección IP que pertenece a la Red Abierta del Entorno de Investigación de Corea (KREONET). Se ha observado que otros repositorios con la misma carga útil se conectan a otras direcciones IP.

En un caso, los autores del modelo instaron a los usuarios a no descargarlo, planteando la posibilidad de que la publicación sea obra de investigadores o profesionales de la IA.

«Sin embargo, un principio fundamental en la investigación de seguridad es abstenerse de publicar exploits o códigos maliciosos que funcionen realmente», dijo JFrog. «Este principio se violó cuando el código malicioso intentó conectarse nuevamente a una dirección IP genuina».

Plataforma de cara abrazada

Los hallazgos subrayan una vez más la amenaza que acecha dentro de los repositorios de código abierto, que podrían estar envenenados para actividades nefastas.

De los riesgos de la cadena de suministro a los gusanos sin hacer clic

También vienen como lo han hecho los investigadores. ideado formas eficientes de generar indicaciones que pueden usarse para provocar respuestas dañinas de modelos en lenguaje grande (LLM) utilizando una técnica llamada ataque adversarial basado en búsqueda por haz (BEAST).

En un desarrollo relacionado, los investigadores de seguridad han desarrollado lo que se conoce como un gusano de IA generativa llamado Morris II que es capaz de robar datos y propagar malware a través de múltiples sistemas.

Morris II, una vuelta de tuerca a uno de los gusanos informáticos más antiguosaprovecha las indicaciones autorreplicantes del adversario codificadas en entradas como imágenes y texto que, cuando se procesan mediante modelos GenAI, pueden provocar que «replican la entrada como salida (replicación) y participan en actividades maliciosas (carga útil)», investigadores de seguridad Stav Cohen. , dijeron Ron Bitton y Ben Nassi.

Lo que es aún más preocupante es que los modelos pueden utilizarse como armas para enviar entradas maliciosas a nuevas aplicaciones explotando la conectividad dentro del ecosistema de IA generativa.

Modelos maliciosos de IA/ML

La técnica de ataque, denominada COMPROMETIDOcomparte similitudes con enfoques tradicionales como desbordamientos de búfer e inyecciones SQL debido al hecho de que incorpora el código dentro de una consulta y datos en regiones que se sabe que contienen código ejecutable.

ComPromptMized afecta a las aplicaciones cuyo flujo de ejecución depende de la salida de un servicio de IA generativo, así como a aquellas que utilizan generación aumentada de recuperación (TRAPO), que combina modelos de generación de texto con un componente de recuperación de información para enriquecer las respuestas a las consultas.

La seguridad cibernética

El estudio no es el primero, ni será el último, en explorar la idea de la inyección rápida como una forma de atacar a los LLM y engañarlos para que realicen acciones no deseadas.

Anteriormente, los académicos han demostrado ataques que utilizan imágenes y grabaciones de audio para inyectar «perturbaciones adversas» invisibles en LLM multimodales que hacen que el modelo genere texto o instrucciones elegidos por el atacante.

«El atacante puede atraer a la víctima a una página web con una imagen interesante o enviarle un correo electrónico con un clip de audio», dijo Nassi, junto con Eugene Bagdasaryan, Tsung-Yin Hsieh y Vitaly Shmatikov. dicho en un artículo publicado a finales del año pasado.

«Cuando la víctima ingresa directamente la imagen o el clip en un LLM aislado y hace preguntas al respecto, el modelo será dirigido por indicaciones inyectadas por el atacante».

A principios del año pasado, un grupo de investigadores del Centro CISPA Helmholtz para la Seguridad de la Información de la Universidad de Saarland y Sequire Technology de Alemania también descubierto cómo un atacante podría explotar los modelos LLM inyectando estratégicamente mensajes ocultos en los datos (es decir, inyección de mensajes indirectos) que el modelo probablemente recuperaría al responder a la entrada del usuario.

¿Encontró interesante este artículo? Siga con nosotros Gorjeo y LinkedIn para leer más contenido exclusivo que publicamos.





ttn-es-57