{"id":1562875,"date":"2025-02-03T18:09:57","date_gmt":"2025-02-03T18:09:57","guid":{"rendered":"https:\/\/teknomers.com\/es\/anthrope-hace-avanzar-jailbreak-para-detener-los-modelos-de-ia-que-producen-resultados-daninos\/"},"modified":"2025-02-03T18:10:02","modified_gmt":"2025-02-03T18:10:02","slug":"anthrope-hace-avanzar-jailbreak-para-detener-los-modelos-de-ia-que-producen-resultados-daninos","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/anthrope-hace-avanzar-jailbreak-para-detener-los-modelos-de-ia-que-producen-resultados-daninos\/","title":{"rendered":"Anthrope hace avanzar &#8216;jailbreak&#8217; para detener los modelos de IA que producen resultados da\u00f1inos"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p>Mant\u00e9ngase informado con actualizaciones gratuitas<\/p>\n<p class=\"article__content-sign-up-topic-description\"><span>Simplemente reg\u00edstrese en el <!-- -->Inteligencia artificial<!-- --> Myft Digest: entregado directamente a su bandeja de entrada.<\/span><\/p>\n<p><iframe class=\"article__content-sign-up-iframe close\" scrolling=\"no\" id=\"signUpIframe\" data-prev-url=\"\/register\/in-article-sign-up?ft-content-uuid=cf11ebd8-aa0b-4ed4-945b-a5d4401d186e&amp;concept-id=d2e5aa89-e168-416d-b41b-af8e847fb3cd\"><\/iframe><\/div>\n<div id=\"article-body\">\n<p>El inicio de inteligencia artificial Anthrope ha demostrado una nueva t\u00e9cnica para evitar que los usuarios obtengan contenido da\u00f1ino de sus modelos, como grupos tecnol\u00f3gicos l\u00edderes, incluidos Microsoft y Meta Race para encontrar formas que protegen contra los peligros planteados por la tecnolog\u00eda de punta.<\/p>\n<p>En un art\u00edculo publicado el lunes, la nueva empresa con sede en San Francisco describi\u00f3 un nuevo sistema llamado &#8220;clasificadores constitucionales&#8221;. Es un modelo que act\u00faa como una capa protectora sobre modelos de lenguaje grandes, como el que alimenta el Claude Chatbot de Anthrope, que puede monitorear tanto las entradas como las salidas para obtener contenido da\u00f1ino.<\/p>\n<p>El desarrollo de Anthrope, que est\u00e1 en conversaciones para recaudar $ 2 mil millones a una valoraci\u00f3n de $ 60 mil millones, se produce en medio de una creciente preocupaci\u00f3n de la industria sobre el &#8220;Jailbreaking&#8221;: intenta manipular modelos de IA para generar informaci\u00f3n ilegal o peligrosa, como producir instrucciones para construir armas qu\u00edmicas.<\/p>\n<p>Otras compa\u00f1\u00edas tambi\u00e9n est\u00e1n corriendo para desplegar medidas para proteger contra la pr\u00e1ctica, en movimientos que podr\u00edan ayudarlos a evitar el escrutinio regulatorio al tiempo que convencen a las empresas de adoptar modelos de IA de manera segura. Microsoft introdujo &#8220;Shields r\u00e1pidos&#8221; en marzo pasado, mientras que Meta introdujo un modelo de guardia r\u00e1pido en julio del a\u00f1o pasado, que los investigadores encontraron formas r\u00e1pidamente de omitir pero desde entonces se han solucionado.<\/p>\n<p>Mrinank Sharma, miembro del personal t\u00e9cnico de Anthrope, dijo: \u201cLa principal motivaci\u00f3n detr\u00e1s del trabajo fue para qu\u00edmicos severos [weapon] cosa [but] La verdadera ventaja del m\u00e9todo es su capacidad para responder r\u00e1pidamente y adaptarse &#8220;.<\/p>\n<p>Anthrope dijo que no utilizar\u00eda inmediatamente el sistema en sus modelos Claude actuales, pero considerar\u00eda implementarlo si los modelos m\u00e1s riesgosos se publicaran en el futuro. Sharma agreg\u00f3: &#8220;La gran conclusi\u00f3n de este trabajo es que creemos que este es un problema manejable&#8221;.<\/p>\n<p>La soluci\u00f3n propuesta por la inicio se basa en una llamada &#8220;constituci\u00f3n&#8221; de reglas que definen lo que est\u00e1 permitido y restringido y puede adaptarse para capturar diferentes tipos de material. <\/p>\n<p>Algunos intentos de jailbreak son bien conocidos, como usar una capitalizaci\u00f3n inusual en el aviso o pedirle al modelo que adopte la persona de una abuela para contar una historia de cama sobre un tema nefasto.<\/p>\n<aside aria-labelledby=\"aside-label\" class=\"n-content-recommended--single-story n-content-recommended--inset\" data-component=\"recommended\">\n<p class=\"n-content-recommended__title\">Recomendado<\/p>\n<div class=\"o-teaser o-teaser--article o-teaser--small o-teaser--stacked o-teaser--has-image js-teaser\" data-id=\"6f786914-734f-4b4e-b757-ab56d0db65b2\">\n<div class=\"o-teaser__image-container js-teaser-image-container\">\n<div class=\"o-teaser__image-placeholder\" style=\"aspect-ratio:2290\/1288\"><\/div>\n<\/div>\n<\/div>\n<\/aside>\n<p>Para validar la efectividad del sistema, Anthrope ofreci\u00f3 &#8220;recompensas de errores&#8221; de hasta $ 15,000 a las personas que intentaron evitar las medidas de seguridad. Estos evaluadores, conocidos como Red Teamers, pasaron m\u00e1s de 3.000 horas tratando de romper las defensas.<\/p>\n<p>El modelo de soneto Claude 3.5 de Anthrope rechaz\u00f3 m\u00e1s del 95 por ciento de los intentos con los clasificadores en su lugar, en comparaci\u00f3n con el 14 por ciento sin salvaguardas.<\/p>\n<p>Las principales empresas tecnol\u00f3gicas est\u00e1n tratando de reducir el mal uso de sus modelos, al tiempo que mantienen su ayuda. A menudo, cuando se implementan medidas de moderaci\u00f3n, los modelos pueden volverse cautelosos y rechazar las solicitudes benignas, como con versiones tempranas del generador de im\u00e1genes G\u00e9minis de Google o la Llama 2 de Meta. &#8220;.<\/p>\n<p>Sin embargo, agregar estas protecciones tambi\u00e9n incurre en costos adicionales para las empresas que ya pagan grandes sumas por la energ\u00eda inform\u00e1tica requerida para entrenar y ejecutar modelos. Anthrope dijo que el clasificador ascender\u00eda a un aumento de casi el 24 por ciento en la &#8220;sobrecarga de inferencia&#8221;, los costos de administrar los modelos.<\/p>\n<figure class=\"n-content-image n-content-image--full\" data-component=\"image-set\"><picture><source media=\"(min-width: 700px)\"  width=\"2100\" height=\"1500\"\/><source media=\"(max-width: 490px)\"  width=\"900\" height=\"1200\"\/><img decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/Anthrope-hace-avanzar-jailbreak-para-detener-los-modelos-de-IA.png\" alt=\"Gr\u00e1fico de barras de las pruebas realizadas en su \u00faltimo modelo que muestra la efectividad de los clasificadores de Anthrope\" data-image-type=\"graphic\" width=\"2100\" height=\"1500\" loading=\"lazy\"\/><\/picture><\/figure>\n<p>Los expertos en seguridad han argumentado que la naturaleza accesible de tales chatbots generativos ha permitido a las personas comunes sin conocimiento previo para intentar extraer informaci\u00f3n peligrosa.<\/p>\n<p>&#8220;En 2016, el actor de amenaza que tendr\u00edamos en mente era un adversario de estado-naci\u00f3n realmente poderoso&#8221;, dijo Ram Shankar Siva Kumar, quien lidera el equipo de AI Red en Microsoft. &#8220;Ahora, literalmente, uno de mis actores de amenaza es un adolescente con boca para ir al ba\u00f1o&#8221;. <\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/www.ft.com\/content\/cf11ebd8-aa0b-4ed4-945b-a5d4401d186e\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-56<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mant\u00e9ngase informado con actualizaciones gratuitas Simplemente reg\u00edstrese en el Inteligencia artificial Myft Digest: entregado directamente a su bandeja<\/p>\n","protected":false},"author":1,"featured_media":1562876,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[276828,44923,46677,870,1740,238280,36,7906,18,75779,1329],"class_list":["post-1562875","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-general","tag-anthrope","tag-avanzar","tag-daninos","tag-detener","tag-hace","tag-jailbreak","tag-los","tag-modelos","tag-para","tag-producen","tag-resultados"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1562875","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=1562875"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1562875\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/1562876"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=1562875"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=1562875"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=1562875"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}