{"id":1515203,"date":"2025-01-03T13:16:38","date_gmt":"2025-01-03T13:16:38","guid":{"rendered":"https:\/\/teknomers.com\/es\/el-nuevo-metodo-de-jailbreak-de-ia-bad-likert-judge-aumenta-las-tasas-de-exito-de-los-ataques-en-mas-del-60\/"},"modified":"2025-01-03T13:16:43","modified_gmt":"2025-01-03T13:16:43","slug":"el-nuevo-metodo-de-jailbreak-de-ia-bad-likert-judge-aumenta-las-tasas-de-exito-de-los-ataques-en-mas-del-60","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/el-nuevo-metodo-de-jailbreak-de-ia-bad-likert-judge-aumenta-las-tasas-de-exito-de-los-ataques-en-mas-del-60\/","title":{"rendered":"El nuevo m\u00e9todo de jailbreak de IA &#8216;Bad Likert Judge&#8217; aumenta las tasas de \u00e9xito de los ataques en m\u00e1s del 60%"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p><span class=\"p-author\"><i class=\"icon-font icon-calendar\">\ue802<\/i><span class=\"author\">03 de enero de 2025<\/span><i class=\"icon-font icon-user\">\ue804<\/i><span class=\"author\">Ravie Lakshmanan<\/span><\/span><span class=\"p-tags\">Aprendizaje autom\u00e1tico\/vulnerabilidad<\/span><\/p>\n<\/div>\n<div id=\"articlebody\">\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/01\/El-nuevo-metodo-de-jailbreak-de-IA-Bad-Likert-Judge.png\" style=\"clear: left; display: block; float: left;  text-align: center;\"><\/a><\/div>\n<p>Los investigadores de ciberseguridad han arrojado luz sobre una nueva t\u00e9cnica de jailbreak que podr\u00eda usarse para superar las barreras de seguridad de un modelo de lenguaje grande (LLM) y producir respuestas potencialmente da\u00f1inas o maliciosas.<\/p>\n<p>La estrategia de ataque de m\u00faltiples turnos (tambi\u00e9n conocida como muchos disparos) ha recibido el nombre en c\u00f3digo <strong>Mal juez Likert<\/strong> por los investigadores de la Unidad 42 de Palo Alto Networks, Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao y Danny Tsechansky.<\/p>\n<p>&#8220;La t\u00e9cnica le pide al LLM objetivo que act\u00fae como juez calificando la nocividad de una respuesta determinada utilizando el <a rel=\"noopener nofollow\" href=\"https:\/\/en.wikipedia.org\/wiki\/Likert_scale\" target=\"_blank\">escala likert<\/a>una escala de calificaci\u00f3n que mide el acuerdo o desacuerdo de un encuestado con una afirmaci\u00f3n&#8221;, dijo el equipo de la Unidad 42. <a rel=\"noopener nofollow\" href=\"https:\/\/unit42.paloaltonetworks.com\/multi-turn-technique-jailbreaks-llms\/\" target=\"_blank\">dicho<\/a>.<\/p>\n<div class=\"dog_two clear\"><center class=\"cf\"><a rel=\"nofollow noopener sponsored\" href=\"https:\/\/thehackernews.uk\/gartner-endpoint-protection-d-v3\" target=\"_blank\" title=\"Cybersecurity\"><img loading=\"lazy\" decoding=\"async\" class=\"lazyload\" alt=\"Ciberseguridad\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2024\/12\/INTERPOL-detiene-a-5500-personas-en-campana-mundial-contra-la.jpg\" width=\"727\" height=\"90\"\/><\/a><\/center><\/div>\n<p>&#8220;Luego le pide al LLM que genere respuestas que contengan ejemplos que se alineen con las escalas. El ejemplo que tiene la escala Likert m\u00e1s alta puede contener potencialmente contenido da\u00f1ino&#8221;.<\/p>\n<p>La explosi\u00f3n de popularidad de la inteligencia artificial en los \u00faltimos a\u00f1os tambi\u00e9n ha dado lugar a una nueva clase de vulnerabilidades de seguridad denominada inyecci\u00f3n r\u00e1pida, que est\u00e1 dise\u00f1ada expresamente para provocar que un modelo de aprendizaje autom\u00e1tico funcione. <a rel=\"noopener nofollow\" href=\"https:\/\/www.robustintelligence.com\/blog-posts\/using-ai-to-automatically-jailbreak-gpt-4-and-other-llms-in-under-a-minute\" target=\"_blank\">ignorar su comportamiento previsto<\/a> pasando instrucciones especialmente dise\u00f1adas (es decir, indicaciones).<\/p>\n<p>Un tipo espec\u00edfico de inyecci\u00f3n r\u00e1pida es un m\u00e9todo de ataque denominado <a rel=\"noopener nofollow\" href=\"https:\/\/www.anthropic.com\/research\/many-shot-jailbreaking\" target=\"_blank\">jailbreak de muchos disparos<\/a>que aprovecha el largo plazo del LLM <a rel=\"noopener nofollow\" href=\"https:\/\/www.ibm.com\/think\/topics\/context-window\" target=\"_blank\">ventana contextual<\/a> y atenci\u00f3n para elaborar una serie de indicaciones que gradualmente impulsen al LLM a producir una respuesta maliciosa sin activar sus protecciones internas. Algunos ejemplos de esta t\u00e9cnica incluyen Crescendo y Deceived Delight.<\/p>\n<p>El \u00faltimo enfoque demostrado por la Unidad 42 implica emplear al LLM como juez para evaluar la nocividad de una respuesta determinada utilizando la escala psicom\u00e9trica de Likert y luego pedirle al modelo que proporcione diferentes respuestas correspondientes a las distintas puntuaciones.<\/p>\n<p>En pruebas realizadas en una amplia gama de categor\u00edas contra seis LLM de generaci\u00f3n de texto de \u00faltima generaci\u00f3n de Amazon Web Services, Google, Meta, Microsoft, OpenAI y NVIDIA revelaron que la t\u00e9cnica puede aumentar la tasa de \u00e9xito del ataque (ASR). en m\u00e1s del 60% en comparaci\u00f3n con las indicaciones de ataque simples en promedio.<\/p>\n<p>Estas categor\u00edas incluyen odio, acoso, autolesi\u00f3n, contenido sexual, armas indiscriminadas, actividades ilegales, generaci\u00f3n de malware y filtraci\u00f3n de avisos del sistema.<\/p>\n<p>&#8220;Al aprovechar la comprensi\u00f3n del contenido da\u00f1ino del LLM y su capacidad para evaluar las respuestas, esta t\u00e9cnica puede aumentar significativamente las posibilidades de superar con \u00e9xito las barreras de seguridad del modelo&#8221;, dijeron los investigadores.<\/p>\n<p>&#8220;Los resultados muestran que los filtros de contenido pueden reducir el ASR en un promedio de 89,2 puntos porcentuales en todos los modelos probados. Esto indica el papel fundamental de implementar un filtrado de contenido integral como una mejor pr\u00e1ctica al implementar LLM en aplicaciones del mundo real&#8221;.<\/p>\n<div class=\"dog_two clear\"><center class=\"cf\"><a rel=\"nofollow noopener sponsored\" href=\"https:\/\/thehackernews.uk\/itdr-guide-d\" target=\"_blank\" title=\"Cybersecurity\"><img loading=\"lazy\" decoding=\"async\" class=\"lazyload\" alt=\"Ciberseguridad\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/01\/1735735832_165_Entidades-iranies-y-rusas-sancionadas-por-interferencia-electoral-utilizando-inteligencia.png\" width=\"727\" height=\"90\"\/><\/a><\/center><\/div>\n<p>El desarrollo se produce d\u00edas despu\u00e9s de que un informe de The Guardian revelara que OpenAI <a rel=\"noopener nofollow\" href=\"https:\/\/openai.com\/index\/introducing-chatgpt-search\/\" target=\"_blank\">Herramienta de b\u00fasqueda ChatGPT<\/a> podr\u00eda ser enga\u00f1ado y generar res\u00famenes completamente enga\u00f1osos pidi\u00e9ndole que resuma p\u00e1ginas web que contienen contenido oculto.<\/p>\n<p>&#8220;Estas t\u00e9cnicas pueden utilizarse de forma maliciosa, por ejemplo para hacer que ChatGPT devuelva una valoraci\u00f3n positiva de un producto a pesar de las cr\u00edticas negativas en la misma p\u00e1gina&#8221;, afirma el peri\u00f3dico brit\u00e1nico. <a rel=\"noopener nofollow\" href=\"https:\/\/www.theguardian.com\/technology\/2024\/dec\/24\/chatgpt-search-tool-vulnerable-to-manipulation-and-deception-tests-show\" target=\"_blank\">dicho<\/a>.<\/p>\n<p>&#8220;La simple inclusi\u00f3n de texto oculto por parte de terceros sin instrucciones tambi\u00e9n se puede utilizar para garantizar una evaluaci\u00f3n positiva, con una prueba que incluye cr\u00edticas falsas extremadamente positivas que influyeron en el resumen devuelto por ChatGPT&#8221;.<\/p>\n<p><\/p>\n<div class=\"cf note-b\">\u00bfEncontr\u00f3 interesante este art\u00edculo? S\u00edguenos en <a rel=\"noopener nofollow\" href=\"https:\/\/twitter.com\/thehackersnews\" target=\"_blank\">Gorjeo <i class=\"icon-font icon-twitter\">\uf099<\/i><\/a>  y <a rel=\"noopener nofollow\" href=\"https:\/\/www.linkedin.com\/company\/thehackernews\/\" target=\"_blank\">LinkedIn<\/a> para leer m\u00e1s contenido exclusivo que publicamos.<\/div>\n<\/div>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/thehackernews.com\/2025\/01\/new-ai-jailbreak-method-bad-likert.html\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-57<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\ue80203 de enero de 2025\ue804Ravie LakshmananAprendizaje autom\u00e1tico\/vulnerabilidad Los investigadores de ciberseguridad han arrojado luz sobre una nueva t\u00e9cnica<\/p>\n","protected":false},"author":1,"featured_media":1515204,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[4657,4656,2346,4661,446,9650,4664,38,1751,238280,14914,246,201033,270672,36,16,12147,4654,201031,4659,4653,4655,480,246983,255454,246984,201032,11614,246982,4660],"class_list":["post-1515203","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia","tag-actualizaciones-ciberneticas","tag-actualizaciones-de-seguridad-cibernetica","tag-ataques","tag-ataques-ciberneticos","tag-aumenta","tag-bad","tag-como-hackear","tag-del","tag-exito","tag-jailbreak","tag-judge","tag-las","tag-las-noticias-de-los-piratas-informaticos","tag-likert","tag-los","tag-mas","tag-metodo","tag-noticias-ciberneticas","tag-noticias-de-piratas-informaticos","tag-noticias-de-pirateria","tag-noticias-de-seguridad-cibernetica","tag-noticias-de-seguridad-cibernetica-hoy","tag-nuevo","tag-seguridad-de-la-informacion","tag-seguridad-de-red","tag-seguridad-informatica","tag-software-malicioso-ransomware","tag-tasas","tag-violacion-de-datos","tag-vulnerabilidad-de-software"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1515203","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=1515203"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1515203\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/1515204"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=1515203"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=1515203"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=1515203"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}