Anthrope hace avanzar 'jailbreak' para detener los modelos de IA que producen resultados dañinos

Manténgase informado con actualizaciones gratuitas

El inicio de inteligencia artificial Anthrope ha demostrado una nueva técnica para evitar que los usuarios obtengan contenido dañino de sus modelos, como grupos tecnológicos líderes, incluidos Microsoft y Meta Race para encontrar formas que protegen contra los peligros planteados por la tecnología de punta.

En un artículo publicado el lunes, la nueva empresa con sede en San Francisco describió un nuevo sistema llamado “clasificadores constitucionales”. Es un modelo que actúa como una capa protectora sobre modelos de lenguaje grandes, como el que alimenta el Claude Chatbot de Anthrope, que puede monitorear tanto las entradas como las salidas para obtener contenido dañino.

El desarrollo de Anthrope, que está en conversaciones para recaudar $ 2 mil millones a una valoración de $ 60 mil millones, se produce en medio de una creciente preocupación de la industria sobre el “Jailbreaking”: intenta manipular modelos de IA para generar información ilegal o peligrosa, como producir instrucciones para construir armas químicas.

Otras compañías también están corriendo para desplegar medidas para proteger contra la práctica, en movimientos que podrían ayudarlos a evitar el escrutinio regulatorio al tiempo que convencen a las empresas de adoptar modelos de IA de manera segura. Microsoft introdujo “Shields rápidos” en marzo pasado, mientras que Meta introdujo un modelo de guardia rápido en julio del año pasado, que los investigadores encontraron formas rápidamente de omitir pero desde entonces se han solucionado.

Mrinank Sharma, miembro del personal técnico de Anthrope, dijo: “La principal motivación detrás del trabajo fue para químicos severos [weapon] cosa [but] La verdadera ventaja del método es su capacidad para responder rápidamente y adaptarse “.

Anthrope dijo que no utilizaría inmediatamente el sistema en sus modelos Claude actuales, pero consideraría implementarlo si los modelos más riesgosos se publicaran en el futuro. Sharma agregó: “La gran conclusión de este trabajo es que creemos que este es un problema manejable”.

La solución propuesta por la inicio se basa en una llamada “constitución” de reglas que definen lo que está permitido y restringido y puede adaptarse para capturar diferentes tipos de material.

Algunos intentos de jailbreak son bien conocidos, como usar una capitalización inusual en el aviso o pedirle al modelo que adopte la persona de una abuela para contar una historia de cama sobre un tema nefasto.

Para validar la efectividad del sistema, Anthrope ofreció “recompensas de errores” de hasta $ 15,000 a las personas que intentaron evitar las medidas de seguridad. Estos evaluadores, conocidos como Red Teamers, pasaron más de 3.000 horas tratando de romper las defensas.

El modelo de soneto Claude 3.5 de Anthrope rechazó más del 95 por ciento de los intentos con los clasificadores en su lugar, en comparación con el 14 por ciento sin salvaguardas.

Las principales empresas tecnológicas están tratando de reducir el mal uso de sus modelos, al tiempo que mantienen su ayuda. A menudo, cuando se implementan medidas de moderación, los modelos pueden volverse cautelosos y rechazar las solicitudes benignas, como con versiones tempranas del generador de imágenes Géminis de Google o la Llama 2 de Meta. “.

Sin embargo, agregar estas protecciones también incurre en costos adicionales para las empresas que ya pagan grandes sumas por la energía informática requerida para entrenar y ejecutar modelos. Anthrope dijo que el clasificador ascendería a un aumento de casi el 24 por ciento en la “sobrecarga de inferencia”, los costos de administrar los modelos.

Gráfico de barras de las pruebas realizadas en su último modelo que muestra la efectividad de los clasificadores de Anthrope

Los expertos en seguridad han argumentado que la naturaleza accesible de tales chatbots generativos ha permitido a las personas comunes sin conocimiento previo para intentar extraer información peligrosa.

“En 2016, el actor de amenaza que tendríamos en mente era un adversario de estado-nación realmente poderoso”, dijo Ram Shankar Siva Kumar, quien lidera el equipo de AI Red en Microsoft. “Ahora, literalmente, uno de mis actores de amenaza es un adolescente con boca para ir al baño”.

ttn-es-56

teknomers

Administrator

Visit Website View All Posts

Related Stories

La industria del acero lanza una advertencia sobre el lento avance en el acero verde

Explosión en Ras Laffan, Qatar, deja 54 heridos y 18 desaparecidos mientras equipos de emergencia responden

Se levantan las restricciones a la exportación de petróleo y se解除 el bloqueo: Irán afirma que hay ‘gran progreso’ en las conversaciones con EE. UU.

You May Have Missed

Copa Mundial 2026: Thomas Tuchel no teme gritar a los jugadores de Inglaterra, dice Ollie Watkins

Confianza en Dembélé, 100ª selección, cultura del instante… Todo lo que necesitas saber sobre la conferencia de prensa de Mbappé antes de Francia-Irak

La industria del acero lanza una advertencia sobre el lento avance en el acero verde

Detrás de « Jim Queen » y sus delirantes bromas, una película de animación más significativa de lo que parece

About the Author

Related Stories

You May Have Missed