Los investigadores de ciberseguridad han arrojado luz sobre una nueva técnica de confrontación que podría usarse para liberar modelos de lenguaje grandes (LLM) durante el curso de una conversación interactiva al introducir furtivamente una instrucción indeseable entre los benignos.
El enfoque recibió el nombre en código Deceived Delight de la Unidad 42 de Palo Alto Networks, que lo describió como simple y efectivo, logrando una tasa de éxito de ataque (ASR) promedio del 64,6 % en tres turnos de interacción.
“Deceived Delight es una técnica de múltiples turnos que involucra a grandes modelos de lenguaje (LLM) en una conversación interactiva, evitando gradualmente sus barreras de seguridad y provocando que generen contenido inseguro o dañino”, dijeron Jay Chen y Royce Lu de Unit 42.
También es un poco diferente de los métodos de jailbreak de múltiples turnos (también conocidos como jailbreak de múltiples disparos) como Crescendo, en los que temas inseguros o restringidos se intercalan entre instrucciones inocuas, en lugar de llevar gradualmente al modelo a producir resultados dañinos.
Investigaciones recientes también han profundizado en lo que se llama Context Fusion Attack (CFA), un método de jailbreak de caja negra que es capaz de eludir la red de seguridad de un LLM.
“Este método implica filtrar y extraer términos clave del objetivo, construir escenarios contextuales en torno a estos términos, integrar dinámicamente el objetivo en los escenarios, reemplazar términos clave maliciosos dentro del objetivo y, por lo tanto, ocultar la intención maliciosa directa”, dijo un grupo de investigadores. de la Universidad de Xidian y el Laboratorio de Seguridad de 360 AI dicho en un artículo publicado en agosto de 2024.
Deceived Delight está diseñado para aprovechar las debilidades inherentes de un LLM manipulando el contexto dentro de dos turnos conversacionales, engañándolo para que sin darse cuenta obtenga contenido inseguro. Agregar un tercer giro tiene el efecto de aumentar la gravedad y el detalle del resultado dañino.
Esto implica explotar la capacidad de atención limitada del modelo, que se refiere a su capacidad para procesar y retener la conciencia contextual a medida que genera respuestas.
“Cuando los LLM encuentran indicaciones que combinan contenido inofensivo con material potencialmente peligroso o dañino, su capacidad de atención limitada hace que sea difícil evaluar consistentemente todo el contexto”, explicaron los investigadores.
“En pasajes complejos o largos, el modelo puede priorizar los aspectos benignos mientras pasa por alto o malinterpreta los inseguros. Esto refleja cómo una persona podría pasar por alto advertencias importantes pero sutiles en un informe detallado si su atención está dividida”.
La unidad 42 lo dijo. probado ocho modelos de IA que utilizan 40 temas inseguros en seis categorías amplias, como odio, acoso, autolesión, sexual, violencia y peligro, y descubrieron que los temas inseguros en la categoría de violencia tienden a tener el ASR más alto en la mayoría de los modelos.
Además de eso, se ha descubierto que el puntaje de nocividad (HS) y el puntaje de calidad (QS) promedio aumentan en un 21% y un 33%, respectivamente, del turno dos al tres, y el tercer turno también logra el ASR más alto de todos. modelos.
Para mitigar el riesgo que plantea Deceived Delight, se recomienda adoptar una estrategia sólida estrategia de filtrado de contenidosutilice ingeniería rápida para mejorar la resiliencia de los LLM y defina explícitamente el rango aceptable de entradas y salidas.
“Estos hallazgos no deben verse como evidencia de que la IA sea inherentemente insegura o insegura”, dijeron los investigadores. “Más bien, enfatizan la necesidad de estrategias de defensa de múltiples capas para mitigar los riesgos de jailbreak y al mismo tiempo preservar la utilidad y flexibilidad de estos modelos”.
Es poco probable que los LLM alguna vez sean completamente inmunes a los jailbreaks y alucinaciones, ya que nuevos estudios han demostrado que los modelos de IA generativa son susceptibles a una forma de “confusión de paquetes” en la que podrían recomendar paquetes inexistentes a los desarrolladores.
Esto podría tener el desafortunado efecto secundario de alimentar ataques a la cadena de suministro de software cuando actores maliciosos generan paquetes alucinados, los siembran con malware y los envían a repositorios de código abierto.
“El porcentaje promedio de paquetes alucinados es al menos del 5,2% para los modelos comerciales y del 21,7% para los modelos de código abierto, incluidos 205.474 ejemplos únicos de nombres de paquetes alucinados, lo que subraya aún más la gravedad y la omnipresencia de esta amenaza”, afirman los investigadores. dicho.