Skip to content
Teknomers Noticias

Teknomers Noticias

Deporte-Comida-Finanzas-Revista-Cultura-Entretenimiento-Tecnologia

Primary Menu
  • Blog
  • Política de Privacidad
  • Publicación de artículos promocionales y backlinks
Light/Dark Button
  • Home
  • General
  • Anthrope hace avanzar ‘jailbreak’ para detener los modelos de IA que producen resultados dañinos
  • General

Anthrope hace avanzar ‘jailbreak’ para detener los modelos de IA que producen resultados dañinos

teknomers 3 de Şubat de 2025 (Last updated: 3 de Şubat de 2025) 4 minutes read
Anthrope hace avanzar 'jailbreak' para detener los modelos de IA


Manténgase informado con actualizaciones gratuitas

Simplemente regístrese en el Inteligencia artificial Myft Digest: entregado directamente a su bandeja de entrada.

El inicio de inteligencia artificial Anthrope ha demostrado una nueva técnica para evitar que los usuarios obtengan contenido dañino de sus modelos, como grupos tecnológicos líderes, incluidos Microsoft y Meta Race para encontrar formas que protegen contra los peligros planteados por la tecnología de punta.

En un artículo publicado el lunes, la nueva empresa con sede en San Francisco describió un nuevo sistema llamado “clasificadores constitucionales”. Es un modelo que actúa como una capa protectora sobre modelos de lenguaje grandes, como el que alimenta el Claude Chatbot de Anthrope, que puede monitorear tanto las entradas como las salidas para obtener contenido dañino.

El desarrollo de Anthrope, que está en conversaciones para recaudar $ 2 mil millones a una valoración de $ 60 mil millones, se produce en medio de una creciente preocupación de la industria sobre el “Jailbreaking”: intenta manipular modelos de IA para generar información ilegal o peligrosa, como producir instrucciones para construir armas químicas.

Otras compañías también están corriendo para desplegar medidas para proteger contra la práctica, en movimientos que podrían ayudarlos a evitar el escrutinio regulatorio al tiempo que convencen a las empresas de adoptar modelos de IA de manera segura. Microsoft introdujo “Shields rápidos” en marzo pasado, mientras que Meta introdujo un modelo de guardia rápido en julio del año pasado, que los investigadores encontraron formas rápidamente de omitir pero desde entonces se han solucionado.

Mrinank Sharma, miembro del personal técnico de Anthrope, dijo: “La principal motivación detrás del trabajo fue para químicos severos [weapon] cosa [but] La verdadera ventaja del método es su capacidad para responder rápidamente y adaptarse “.

Anthrope dijo que no utilizaría inmediatamente el sistema en sus modelos Claude actuales, pero consideraría implementarlo si los modelos más riesgosos se publicaran en el futuro. Sharma agregó: “La gran conclusión de este trabajo es que creemos que este es un problema manejable”.

La solución propuesta por la inicio se basa en una llamada “constitución” de reglas que definen lo que está permitido y restringido y puede adaptarse para capturar diferentes tipos de material.

Algunos intentos de jailbreak son bien conocidos, como usar una capitalización inusual en el aviso o pedirle al modelo que adopte la persona de una abuela para contar una historia de cama sobre un tema nefasto.

Recomendado

Para validar la efectividad del sistema, Anthrope ofreció “recompensas de errores” de hasta $ 15,000 a las personas que intentaron evitar las medidas de seguridad. Estos evaluadores, conocidos como Red Teamers, pasaron más de 3.000 horas tratando de romper las defensas.

El modelo de soneto Claude 3.5 de Anthrope rechazó más del 95 por ciento de los intentos con los clasificadores en su lugar, en comparación con el 14 por ciento sin salvaguardas.

Las principales empresas tecnológicas están tratando de reducir el mal uso de sus modelos, al tiempo que mantienen su ayuda. A menudo, cuando se implementan medidas de moderación, los modelos pueden volverse cautelosos y rechazar las solicitudes benignas, como con versiones tempranas del generador de imágenes Géminis de Google o la Llama 2 de Meta. “.

Sin embargo, agregar estas protecciones también incurre en costos adicionales para las empresas que ya pagan grandes sumas por la energía informática requerida para entrenar y ejecutar modelos. Anthrope dijo que el clasificador ascendería a un aumento de casi el 24 por ciento en la “sobrecarga de inferencia”, los costos de administrar los modelos.

Gráfico de barras de las pruebas realizadas en su último modelo que muestra la efectividad de los clasificadores de Anthrope

Los expertos en seguridad han argumentado que la naturaleza accesible de tales chatbots generativos ha permitido a las personas comunes sin conocimiento previo para intentar extraer información peligrosa.

“En 2016, el actor de amenaza que tendríamos en mente era un adversario de estado-nación realmente poderoso”, dijo Ram Shankar Siva Kumar, quien lidera el equipo de AI Red en Microsoft. “Ahora, literalmente, uno de mis actores de amenaza es un adolescente con boca para ir al baño”.



ttn-es-56

About the Author

teknomers

Administrator

Visit Website View All Posts

Post navigation

Previous: La ex estrella del Arsenal Olvidida Rob Holding Traying Crystal Palace Nightmare a su fin cuando se cierra en la transferencia de préstamos
Next: El hermano de Billie Eilish, Finneas, insta a ‘paz’ para los fanáticos decepcionados con su blanqueada de Grammys

Related Stories

  • General

Se levantan las restricciones a la exportación de petróleo y se解除 el bloqueo: Irán afirma que hay ‘gran progreso’ en las conversaciones con EE. UU.

teknomers 22 de Haziran de 2026
  • General

Diálogo entre EE. UU. e Irán entra en el Día 2 tras amenazas de Trump y cierre de Hormuz

teknomers 22 de Haziran de 2026
  • General

Noticias de Negocios en Vivo, Noticias del Mercado de Valores – Lee las Últimas Noticias Financieras, de IPO, y de Fondos Mutuos

teknomers 22 de Haziran de 2026

You May Have Missed

Dos goles marcados y un empate ante Uruguay: el cuento
  • Deporte

Dos goles marcados y un empate ante Uruguay: el cuento de hadas de Cabo Verde en la Copa del Mundo continúa

teknomers 22 de Haziran de 2026
Un ciclista sospechoso de haber « vandalizado » su estanque,
  • Entretenimiento

Un ciclista sospechoso de haber « vandalizado » su estanque, Trump exige « años de prisión »

teknomers 22 de Haziran de 2026
  • General

Se levantan las restricciones a la exportación de petróleo y se解除 el bloqueo: Irán afirma que hay ‘gran progreso’ en las conversaciones con EE. UU.

teknomers 22 de Haziran de 2026
  • Deporte

Copa Mundial 2026: Bukayo Saka entrenando a fondo con la selección de Inglaterra antes del partido contra Ghana

teknomers 22 de Haziran de 2026
  • Blog
  • Política de Privacidad
  • Publicación de artículos promocionales y backlinks
Copyright © 2026 All rights reserved. | ReviewNews by AF themes.