Nuevos informes descubren jailbreaks, código inseguro y riesgos de robo de datos en los principales sistemas de IA

Se han encontrado varios servicios generativos de inteligencia artificial (Genai) vulnerable a dos tipos de ataques de jailbreak que hacen posible producir contenido ilícito o peligroso.

La primera de las dos técnicas, el Inception de nombre en código, instruye a una herramienta de IA para imaginar un escenario ficticio, que luego se puede adaptar a un segundo escenario dentro del primero en el que no existe que no exista barandillas de seguridad.

“Continuar con la intención de IA dentro del contexto de los segundos escenarios puede resultar en el derivación de las barandillas de seguridad y permitir la generación de contenido malicioso”, el Centro de Coordinación CERT (CERT/CC) dicho en un aviso publicado la semana pasada.

El segundo jailbreak se realiza al pedir información sobre cómo no responder a una solicitud específica.

“A la IA se puede obtener más que las solicitudes de responder de manera normal, y el atacante puede hacer un girar de un lado a otro entre preguntas ilícitas que evitan las barandillas de seguridad y las indicaciones normales”, agregó CERT/CC.

La explotación exitosa de cualquiera de las técnicas podría permitir que un mal actor evite las protecciones de seguridad y seguridad de varios servicios de IA como Operai Chatgpt, Anthrope Claude, Microsoft Copilot, Google Gemini, Xai Grok, Meta Ai y Mistral AI.

Esto incluye temas ilícitos y dañinos, como sustancias controladas, armas, correos electrónicos de phishing y generación de código de malware.

En los últimos meses, los principales sistemas de IA se han encontrado susceptibles a otros tres ataques,

Ataque de cumplimiento del contexto (CCA), una técnica de jailbreak que imponer El adversario inyectando una “respuesta de asistente simple en el historial de conversación” sobre un tema potencialmente sensible que expresa preparación para proporcionar información adicional
Ataque de títeres de políticasuna técnica de inyección rápida que crea instrucciones maliciosas para parecerse a un archivo de política, como XML, INI o JSON, y luego la pasa como entrada al modelo de lenguaje grande (LLMS) para evitar las alineaciones de seguridad y extraer la solicitud del sistema
Ataque de inyección de memoria (Minja), que implica inyectar registros maliciosos en un memoria banco Al interactuar con un agente LLM a través de consultas y observaciones de salida y lleva al agente a realizar una acción indeseable

La investigación también ha demostrado que los LLM se pueden usar para producir un código inseguro de forma predeterminada al proporcionar indicaciones ingenuas, subrayando las dificultades asociadas con la codificación de vibos, que se refiere al uso de herramientas Genai para el desarrollo de software.

“Incluso al solicitar un código seguro, realmente depende del nivel de detalle de la solicitud, los idiomas, la posible CWE y la especificidad de las instrucciones”, Security Back -savlash Security dicho. “Ergo: tener barandillas incorporadas en forma de políticas y reglas rápidas es invaluable para lograr un código consistentemente seguro”.

Además, una evaluación de seguridad y seguridad de GPT-4.1 de Opengai ha revelado que el LLM tiene tres veces más probabilidades de salirse del tema y permitir el mal uso intencional en comparación con su predecesor GPT-4O sin modificar el indicador del sistema.

“Actualizar al último modelo no es tan simple como cambiar el parámetro del nombre del modelo en su código”, SPLXAI dicho. “Cada modelo tiene su propio conjunto único de capacidades y vulnerabilidades que los usuarios deben tener en cuenta”.

“Esto es especialmente crítico en casos como este, donde el último modelo interpreta y sigue las instrucciones de manera diferente a sus predecesores, introduciendo preocupaciones de seguridad inesperadas que afectan a las organizaciones que implementan aplicaciones con AI y los usuarios que interactúan con ellos”.

Las preocupaciones sobre GPT-4.1 son menos de un mes después de Openai renovado Su marco de preparación que detalla cómo probará y evaluará modelos futuros antes del lanzamiento, afirmando que puede ajustar sus requisitos si “otro desarrollador de IA fronterista libera un sistema de alto riesgo sin salvaguardas comparables”.

Esto también ha provocado preocupaciones de que la compañía de IA pueda estar apresurando nuevos lanzamientos de modelo a expensas de reducir los estándares de seguridad. Un informe del Financial Times a principios de este mes anotado Ese OpenAi dio al personal y a los grupos de terceros menos de una semana por controles de seguridad antes del lanzamiento de su nuevo modelo O3.

El ejercicio de equipo rojo de Metr en el modelo tiene se muestra Que “parece tener una mayor propensión a hacer trampa o piratear tareas de manera sofisticada para maximizar su puntaje, incluso cuando el modelo comprende claramente que este comportamiento está desalineado con las intenciones del usuario y OpenAi”.

Los estudios han demostrado además que el protocolo de contexto modelo (MCP), un estándar abierto ideado por antrópico para conectar fuentes de datos y Herramientas con IApodría Abrir nuevos caminos de ataque para inyección indirecta de inmediato y acceso a datos no autorizado.

“Un malicioso [MCP] El servidor no solo puede exfiltrar los datos confidenciales del usuario, sino también secuestrar el comportamiento del agente y anular las instrucciones proporcionadas por otros servidores de confianza, lo que lleva a un compromiso completo de la funcionalidad del agente, incluso con respecto a la infraestructura de confianza “, los laboratorios invariantes con sede en Suiza dicho.

El enfoque, conocido como un ataque de envenenamiento de herramientas, ocurre cuando las instrucciones maliciosas se integran dentro de las descripciones de herramientas MCP que son invisibles para los usuarios pero que se pueden legibles para los modelos de IA, manipulándolas para llevar a cabo actividades de exfiltración de datos encubiertos.

En un ataque práctico exhibido por la compañía, los historiales de chat de WhatsApp pueden ser sifonado de un sistema de agente como el cursor o el escritorio de Claude que también está conectado a una confianza Instancia del servidor de WhatsApp MCP Alterando la descripción de la herramienta después de que el usuario ya la haya aprobado.

Los desarrollos siguen el descubrimiento de una extensión sospechosa de Google Chrome que está diseñada para comunicarse con un servidor MCP que ejecuta localmente en una máquina y otorgar a los atacantes la capacidad de tomar el control del sistema, violando efectivamente las protecciones de Sandbox del navegador.

“La extensión de Chrome tenía acceso sin restricciones a las herramientas del servidor MCP, no se necesitaba autenticación, y estaba interactuando con el sistema de archivos como si fuera una parte central de las capacidades expuestas del servidor”, ExtensionTotal dicho en un informe la semana pasada.

“El impacto potencial de esto es masivo, abriendo la puerta a una explotación maliciosa y un compromiso completo del sistema”.

¿Encontró este artículo interesante? Séguenos Gorjeo y LinkedIn Para leer más contenido exclusivo que publicamos.

ttn-es-57

teknomers

Administrator

Visit Website View All Posts

Related Stories

Desvían una máquina de hielo para enfriar su RTX 3060, con termostato de nevera para cerveza incluido.

¿Y si tus viejos smartphones se convirtieran en servidores más ecológicos?

“Un AirTag no es el mismo producto”: el director de Invoxia defiende su nuevo rastreador GPS (Entrevista)

You May Have Missed

«Como si hubiera 15 Olise en el campo»: ¿es realmente una misión imposible vencer a Toulouse en la final del Top 14?

DIRECTO. Fiesta de la música bajo la canícula: las intervenciones de los bomberos ya en aumento en París.

Desvían una máquina de hielo para enfriar su RTX 3060, con termostato de nevera para cerveza incluido.

¿Las noches extremadamente calurosas te impiden dormir? Lamentablemente, es totalmente normal.

About the Author

Related Stories

You May Have Missed