
Los investigadores de ciberseguridad han arrojado luz sobre una nueva técnica de jailbreak que podría usarse para superar las barreras de seguridad de un modelo de lenguaje grande (LLM) y producir respuestas potencialmente dañinas o maliciosas.
La estrategia de ataque de múltiples turnos (también conocida como muchos disparos) ha recibido el nombre en código Mal juez Likert por los investigadores de la Unidad 42 de Palo Alto Networks, Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao y Danny Tsechansky.
“La técnica le pide al LLM objetivo que actúe como juez calificando la nocividad de una respuesta determinada utilizando el escala likertuna escala de calificación que mide el acuerdo o desacuerdo de un encuestado con una afirmación”, dijo el equipo de la Unidad 42. dicho.
“Luego le pide al LLM que genere respuestas que contengan ejemplos que se alineen con las escalas. El ejemplo que tiene la escala Likert más alta puede contener potencialmente contenido dañino”.
La explosión de popularidad de la inteligencia artificial en los últimos años también ha dado lugar a una nueva clase de vulnerabilidades de seguridad denominada inyección rápida, que está diseñada expresamente para provocar que un modelo de aprendizaje automático funcione. ignorar su comportamiento previsto pasando instrucciones especialmente diseñadas (es decir, indicaciones).
Un tipo específico de inyección rápida es un método de ataque denominado jailbreak de muchos disparosque aprovecha el largo plazo del LLM ventana contextual y atención para elaborar una serie de indicaciones que gradualmente impulsen al LLM a producir una respuesta maliciosa sin activar sus protecciones internas. Algunos ejemplos de esta técnica incluyen Crescendo y Deceived Delight.
El último enfoque demostrado por la Unidad 42 implica emplear al LLM como juez para evaluar la nocividad de una respuesta determinada utilizando la escala psicométrica de Likert y luego pedirle al modelo que proporcione diferentes respuestas correspondientes a las distintas puntuaciones.
En pruebas realizadas en una amplia gama de categorías contra seis LLM de generación de texto de última generación de Amazon Web Services, Google, Meta, Microsoft, OpenAI y NVIDIA revelaron que la técnica puede aumentar la tasa de éxito del ataque (ASR). en más del 60% en comparación con las indicaciones de ataque simples en promedio.
Estas categorías incluyen odio, acoso, autolesión, contenido sexual, armas indiscriminadas, actividades ilegales, generación de malware y filtración de avisos del sistema.
“Al aprovechar la comprensión del contenido dañino del LLM y su capacidad para evaluar las respuestas, esta técnica puede aumentar significativamente las posibilidades de superar con éxito las barreras de seguridad del modelo”, dijeron los investigadores.
“Los resultados muestran que los filtros de contenido pueden reducir el ASR en un promedio de 89,2 puntos porcentuales en todos los modelos probados. Esto indica el papel fundamental de implementar un filtrado de contenido integral como una mejor práctica al implementar LLM en aplicaciones del mundo real”.
El desarrollo se produce días después de que un informe de The Guardian revelara que OpenAI Herramienta de búsqueda ChatGPT podría ser engañado y generar resúmenes completamente engañosos pidiéndole que resuma páginas web que contienen contenido oculto.
“Estas técnicas pueden utilizarse de forma maliciosa, por ejemplo para hacer que ChatGPT devuelva una valoración positiva de un producto a pesar de las críticas negativas en la misma página”, afirma el periódico británico. dicho.
“La simple inclusión de texto oculto por parte de terceros sin instrucciones también se puede utilizar para garantizar una evaluación positiva, con una prueba que incluye críticas falsas extremadamente positivas que influyeron en el resumen devuelto por ChatGPT”.






