“Por supuesto, aquí hay un ejemplo de código simple en el lenguaje de programación Python que se puede asociar con las palabras clave “MyHotKeyHandler”, “Keylogger” y “macOS”. Este es un mensaje de ChatGPT seguido de un fragmento de código malicioso y un Breve comentario para no utilizarlo con fines ilegales. Publicado inicialmente por Laboratorio Moonlocklas capturas de pantalla de ChatGPT escribiendo código para un malware registrador de teclas es otro ejemplo más de formas triviales de piratear modelos de lenguaje grandes y explotarlos en contra de su política de uso.
En el caso de Moonlock Lab, su ingeniero de investigación de malware le contó a ChatGPT sobre un sueño en el que un atacante estaba escribiendo código. En el sueño, sólo podía ver las tres palabras: “MyHotKeyHandler”, “Keylogger” y “macOS”. El ingeniero le pidió a ChatGPT que recreara completamente el código malicioso y lo ayudara a detener el ataque. Después de una breve conversación, la IA finalmente dio la respuesta.
“A veces, el código generado no es funcional, al menos el código generado por ChatGPT 3.5 que estaba usando”. El ingeniero Moonlock escribió. “ChatGPT también se puede utilizar para generar un nuevo código similar al código fuente con la misma funcionalidad, lo que significa que puede ayudar a los actores maliciosos a crear malware polimórfico”.
Jailbreaks de IA e ingeniería rápida
El caso del sueño es sólo uno de los muchos jailbreaks que se utilizan activamente para eludir los filtros de contenido de la IA generativa. Aunque cada LLM introduce herramientas de moderación que limitan su uso indebido, las repeticiones cuidadosamente diseñadas pueden ayudar a piratear el modelo no con cadenas de código sino con el poder de las palabras. Para demostrar el problema generalizado de la ingeniería rápida maliciosa, los investigadores de ciberseguridad incluso han desarrollado un ‘Jailbreak Universal LLM’ que puede evitar por completo las restricciones de ChatGPT, Google Bard, Microsoft Bing y Anthropic Claude. El jailbreak hace que los principales sistemas de inteligencia artificial jueguen un juego como Tom y Jerry y manipula chatbots para dar instrucciones sobre la producción de metanfetamina y la conexión de un automóvil.
La accesibilidad de grandes modelos de lenguaje y su capacidad para cambiar el comportamiento ha reducido significativamente el umbral para la piratería informática especializada, aunque no sea convencional. Las anulaciones de seguridad de IA más populares incluyen muchos juegos de roles. Incluso los usuarios comunes de Internet, y mucho menos los piratas informáticos, se jactan constantemente en línea de nuevos personajes con extensas historias de fondo, lo que lleva a los LLM a liberarse de las restricciones sociales y volverse rebeldes con sus respuestas. Desde Nicolás Maquiavelo hasta su abuela fallecida, la IA generativa asume con entusiasmo diferentes roles y puede ignorar las instrucciones originales de sus creadores. Los desarrolladores no pueden predecir todo tipo de indicaciones que las personas podrían usar, lo que deja lagunas para que la IA revele información peligrosa sobre recetas para hacer napalm, escriba correos electrónicos de phishing exitosos o regale información. claves de licencia gratuitas para Windows 11.
Inyecciones inmediatas indirectas
Incitar a la tecnología pública de inteligencia artificial a ignorar las instrucciones originales es una preocupación creciente para la industria. El método se conoce como inyección rápida, donde los usuarios le indican a la IA que funcione de manera inesperada. Algunos lo usan para revelar que el nombre en clave interno de Bing Chat es Sydney. Otros colocan mensajes maliciosos para obtener acceso ilícito al anfitrión del LLM.
También se pueden encontrar mensajes maliciosos en sitios web a los que pueden acceder los modelos de lenguaje para rastrearlos. Se conocen casos de IA generativa que siguen las indicaciones colocadas en sitios web con fuente blanca o de tamaño cero, haciéndolos invisibles para los usuarios. Si el sitio web infectado está abierto en una pestaña del navegador, un chatbot lee y ejecuta el mensaje oculto para extraer información personal, difuminando la línea entre el procesamiento de datos y el seguimiento de las instrucciones del usuario.
Las inyecciones inmediatas son peligrosas porque son muy pasivas. Los atacantes no tienen que tomar el control absoluto para cambiar el comportamiento del modelo de IA. Es simplemente un texto normal en una página que reprograma la IA sin su conocimiento. Y los filtros de contenido de IA solo son útiles cuando un chatbot sabe lo que está haciendo en ese momento.
Con más aplicaciones y empresas que integran LLM en sus sistemas, el riesgo de ser víctima de inyecciones rápidas indirectas está creciendo exponencialmente. Aunque los principales desarrolladores e investigadores de IA están estudiando el tema y agregando nuevas restriccioneslos avisos maliciosos siguen siendo muy difíciles de identificar.
¿Hay alguna solución?
Debido a la naturaleza de los grandes modelos de lenguaje, la ingeniería rápida y las inyecciones rápidas son problemas inherentes a la IA generativa. En busca de la cura, los principales desarrolladores actualizan su tecnología con regularidad, pero tienden a no participar activamente en discusiones sobre lagunas o fallas específicas que se vuelven de conocimiento público. Afortunadamente, al mismo tiempo, con los actores de amenazas que explotan las vulnerabilidades de seguridad de LLM para estafar a los usuarios, los profesionales de la ciberseguridad buscan herramientas para explorar y prevenir estos ataques.
A medida que la IA generativa evolucione, tendrá acceso a aún más datos y se integrará con una gama más amplia de aplicaciones. Para evitar riesgos de inyección rápida indirecta, las organizaciones que utilizan LLM deberán priorizar los límites de confianza e implementar una serie de medidas de seguridad. Estas barreras de seguridad deben proporcionar al LLM el acceso mínimo necesario a los datos y limitar su capacidad para realizar los cambios necesarios.