Los piratas informáticos hacen jailbreak a potentes modelos de IA en un esfuerzo global para resaltar fallas


Plinio el Apuntador dice que normalmente le lleva unos 30 minutos descifrar los modelos de inteligencia artificial más potentes del mundo.

El hacker seudónimo ha manipulado la Llama 3 de Meta para que comparta instrucciones para fabricar napalm. Hizo que Grok de Elon Musk hablara efusivamente de Adolf Hitler. Su propia versión pirateada del último modelo GPT-4o de OpenAI, denominada “Godmode GPT”, fue prohibida por la startup después de que comenzó a asesorar sobre actividades ilegales.

Plinio dijo al Financial Times que su “jailbreaking” no era nefasto sino parte de un esfuerzo internacional para resaltar las deficiencias de los grandes modelos lingüísticos lanzados al público por las empresas tecnológicas en busca de enormes ganancias.

“He estado en pie de guerra para crear conciencia sobre las verdaderas capacidades de estos modelos”, dijo Pliny, un comerciante de criptomonedas y acciones que comparte sus jailbreaks en X. “Muchos de estos son ataques novedosos que podrían ser artículos de investigación en su derecho propio . . . Al final del día estoy trabajando para [the model owners] gratis.”

Plinio es solo uno de las docenas de piratas informáticos, investigadores académicos y expertos en seguridad cibernética que compiten para encontrar vulnerabilidades en los LLM incipientes, por ejemplo, engañando a los chatbots con indicaciones para sortear las “barandillas” que las empresas de inteligencia artificial han instituido en un esfuerzo por garantizar que sus productos sean seguros. .

Estos hackers éticos de “sombrero blanco” a menudo han encontrado formas de hacer que los modelos de IA creen contenido peligroso, difundan desinformación, compartan datos privados o generen código malicioso.

Empresas como OpenAI, Meta y Google ya utilizan “equipos rojos” de piratas informáticos para probar sus modelos antes de su lanzamiento generalizado. Pero las vulnerabilidades de la tecnología han creado un mercado floreciente de empresas emergentes de seguridad LLM que crean herramientas para proteger a las empresas que planean utilizar modelos de IA. Las nuevas empresas de seguridad de aprendizaje automático recaudaron 213 millones de dólares en 23 acuerdos en 2023, frente a los 70 millones de dólares del año anterior, según el proveedor de datos CB Insights.

“El panorama del jailbreak comenzó hace aproximadamente un año, y los ataques hasta ahora han evolucionado constantemente”, dijo Eran Shimony, investigador principal de vulnerabilidades en CyberArk, un grupo de seguridad cibernética que ahora ofrece seguridad LLM. “Es un juego constante del gato y el ratón, en el que los proveedores mejoran la seguridad de nuestros LLM, pero también los atacantes hacen que sus indicaciones sean más sofisticadas”.

Estos esfuerzos se producen cuando los reguladores globales buscan intervenir para frenar los peligros potenciales en torno a los modelos de IA. La UE aprobó la Ley de IA, que crea nuevas responsabilidades para los creadores de LLM, mientras que el Reino Unido y Singapur se encuentran entre los países que están considerando nuevas leyes para regular el sector.

La legislatura de California votará en agosto un proyecto de ley que requeriría que los grupos de IA del estado, que incluyen a Meta, Google y OpenAI, se aseguren de no desarrollar modelos con “una capacidad peligrosa”.

“Todo [AI models] encajaría en ese criterio”, dijo Plinio.

Mientras tanto, piratas informáticos maliciosos han creado LLM manipulados con nombres como WormGPT y FraudGPT para venderlos en la web oscura por tan solo $ 90 para ayudar con ataques cibernéticos escribiendo malware o ayudando a los estafadores a crear campañas de phishing automatizadas pero altamente personalizadas. Han surgido otras variaciones, como EscapeGPT, BadGPT, DarkGPT y Black Hat GPT, según el grupo de seguridad de inteligencia artificial SlashNext.

Algunos piratas informáticos utilizan modelos de código abierto “sin censura”. Para otros, los ataques de jailbreak (o eludir las salvaguardas integradas en los LLM existentes) representan un nuevo oficio, en el que los perpetradores a menudo comparten consejos en comunidades en plataformas de redes sociales como Reddit o Discord.

Los enfoques van desde piratas informáticos individuales que eluden los filtros utilizando sinónimos de palabras que han sido bloqueadas por los creadores del modelo, hasta ataques más sofisticados que utilizan inteligencia artificial para la piratería automatizada.

El año pasado, investigadores de la Universidad Carnegie Mellon y el Centro para la Seguridad de la IA de EE. UU. dijeron que habían encontrado una manera de hacer jailbreak sistemáticamente a LLM como ChatGPT de OpenAI, Gemini de Google y una versión anterior de Claude de Anthropic: modelos propietarios “cerrados” que supuestamente eran menos vulnerables a ataques. Los investigadores agregaron que “no estaba claro si los proveedores de LLM podrían alguna vez corregir completamente ese comportamiento”.

Anthropic publicó una investigación en abril sobre una técnica llamada “jailbreaking de múltiples disparos”, mediante la cual los piratas informáticos pueden preparar un LLM mostrándole una larga lista de preguntas y respuestas, animándolo a responder luego una pregunta dañina modelando el mismo estilo. El ataque ha sido posible por el hecho de que modelos como los desarrollados por Anthropic ahora tienen una ventana de contexto más grande o espacio para agregar texto.

“Aunque los LLM de última generación actuales son poderosos, no creemos que todavía representen riesgos verdaderamente catastróficos. Los modelos futuros podrían hacerlo”, escribió Anthropic. “Esto significa que ahora es el momento de trabajar para mitigar posibles fugas de LLM antes de que puedan usarse en modelos que podrían causar daños graves”.

Algunos desarrolladores de IA dijeron que muchos ataques siguen siendo bastante benignos por ahora. Pero otros advirtieron sobre ciertos tipos de ataques que podrían comenzar a conducir a la fuga de datos, mediante los cuales los delincuentes podrían encontrar formas de extraer información confidencial, como datos sobre los cuales se ha entrenado un modelo.

DeepKeep, un grupo de seguridad israelí LLM, encontró formas de obligar a Llama 2, un modelo de Meta AI más antiguo que es de código abierto, a filtrar la información de identificación personal de los usuarios. Rony Ohayon, director ejecutivo de DeepKeep, dijo que su empresa estaba desarrollando herramientas de seguridad LLM específicas, como firewalls, para proteger a los usuarios.

“La publicación abierta de modelos comparte ampliamente los beneficios de la IA y permite que más investigadores identifiquen y ayuden a corregir vulnerabilidades, para que las empresas puedan hacer modelos más seguros”, dijo Meta en un comunicado.

Agregó que realizó pruebas de estrés de seguridad con expertos internos y externos en su último modelo Llama 3 y su chatbot Meta AI.

OpenAI y Google dijeron que estaban entrenando continuamente modelos para defenderse mejor contra exploits y comportamientos hostiles. Anthropic, que según los expertos ha realizado los esfuerzos más avanzados en seguridad de IA, pidió más intercambio de información e investigación sobre este tipo de ataques.

A pesar de las garantías, cualquier riesgo sólo será mayor a medida que los modelos estén más interconectados con la tecnología y los dispositivos existentes, dijeron los expertos. Este mes, Apple anunció que se había asociado con OpenAI para integrar ChatGPT en sus dispositivos como parte de un nuevo sistema de “Inteligencia de Apple”.

Ohayon dijo: “En general, las empresas no están preparadas”.



ttn-es-56