{"id":1409342,"date":"2024-10-23T10:45:35","date_gmt":"2024-10-23T10:45:35","guid":{"rendered":"https:\/\/teknomers.com\/es\/investigadores-revelan-un-metodo-de-deleite-enganoso-para-hacer-jailbreak-a-modelos-de-ia\/"},"modified":"2024-10-23T10:45:39","modified_gmt":"2024-10-23T10:45:39","slug":"investigadores-revelan-un-metodo-de-deleite-enganoso-para-hacer-jailbreak-a-modelos-de-ia","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/investigadores-revelan-un-metodo-de-deleite-enganoso-para-hacer-jailbreak-a-modelos-de-ia\/","title":{"rendered":"Investigadores revelan un m\u00e9todo de &#8216;deleite enga\u00f1oso&#8217; para hacer jailbreak a modelos de IA"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p><span class=\"p-author\"><i class=\"icon-font icon-calendar\">\ue802<\/i><span class=\"author\">23 de octubre de 2024<\/span><i class=\"icon-font icon-user\">\ue804<\/i><span class=\"author\">Ravie Lakshmanan<\/span><\/span><span class=\"p-tags\">Inteligencia artificial \/ Vulnerabilidad<\/span><\/p>\n<\/div>\n<div id=\"articlebody\">\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2024\/10\/Investigadores-revelan-un-metodo-de-deleite-enganoso-para-hacer-jailbreak.png\" style=\"clear: left; display: block; float: left;  text-align: center;\"><\/a><\/div>\n<p>Los investigadores de ciberseguridad han arrojado luz sobre una nueva t\u00e9cnica de confrontaci\u00f3n que podr\u00eda usarse para liberar modelos de lenguaje grandes (LLM) durante el curso de una conversaci\u00f3n interactiva al introducir furtivamente una instrucci\u00f3n indeseable entre los benignos.<\/p>\n<p>El enfoque recibi\u00f3 el nombre en c\u00f3digo Deceived Delight de la Unidad 42 de Palo Alto Networks, que lo describi\u00f3 como simple y efectivo, logrando una tasa de \u00e9xito de ataque (ASR) promedio del 64,6 % en tres turnos de interacci\u00f3n.<\/p>\n<p>&#8220;Deceived Delight es una t\u00e9cnica de m\u00faltiples turnos que involucra a grandes modelos de lenguaje (LLM) en una conversaci\u00f3n interactiva, evitando gradualmente sus barreras de seguridad y provocando que generen contenido inseguro o da\u00f1ino&#8221;, dijeron Jay Chen y Royce Lu de Unit 42.<\/p>\n<p>Tambi\u00e9n es un poco diferente de los m\u00e9todos de jailbreak de m\u00faltiples turnos (tambi\u00e9n conocidos como jailbreak de m\u00faltiples disparos) como Crescendo, en los que temas inseguros o restringidos se intercalan entre instrucciones inocuas, en lugar de llevar gradualmente al modelo a producir resultados da\u00f1inos. <\/p>\n<p>Investigaciones recientes tambi\u00e9n han profundizado en lo que se llama Context Fusion Attack (CFA), un m\u00e9todo de jailbreak de caja negra que es capaz de eludir la red de seguridad de un LLM.<\/p>\n<div class=\"dog_two clear\"><center class=\"cf\"><a rel=\"nofollow noopener\" href=\"https:\/\/thehackernews.uk\/saas-security-2024-d\" target=\"_blank\" title=\"Cybersecurity\"><img loading=\"lazy\" decoding=\"async\" class=\"lazyload\" alt=\"Ciberseguridad\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2024\/10\/1727895757_55_Aplicaciones-comerciales-falsas-se-dirigen-a-victimas-en-todo-el.png\" width=\"727\" height=\"90\"\/><\/a><\/center><\/div>\n<p>&#8220;Este m\u00e9todo implica filtrar y extraer t\u00e9rminos clave del objetivo, construir escenarios contextuales en torno a estos t\u00e9rminos, integrar din\u00e1micamente el objetivo en los escenarios, reemplazar t\u00e9rminos clave maliciosos dentro del objetivo y, por lo tanto, ocultar la intenci\u00f3n maliciosa directa&#8221;, dijo un grupo de investigadores. de la Universidad de Xidian y el Laboratorio de Seguridad de 360 \u200b\u200bAI <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/abs\/2408.04686\" target=\"_blank\">dicho<\/a> en un art\u00edculo publicado en agosto de 2024.<\/p>\n<p>Deceived Delight est\u00e1 dise\u00f1ado para aprovechar las debilidades inherentes de un LLM manipulando el contexto dentro de dos turnos conversacionales, enga\u00f1\u00e1ndolo para que sin darse cuenta obtenga contenido inseguro. Agregar un tercer giro tiene el efecto de aumentar la gravedad y el detalle del resultado da\u00f1ino.<\/p>\n<p>Esto implica explotar la capacidad de atenci\u00f3n limitada del modelo, que se refiere a su capacidad para procesar y retener la conciencia contextual a medida que genera respuestas.<\/p>\n<p>&#8220;Cuando los LLM encuentran indicaciones que combinan contenido inofensivo con material potencialmente peligroso o da\u00f1ino, su capacidad de atenci\u00f3n limitada hace que sea dif\u00edcil evaluar consistentemente todo el contexto&#8221;, explicaron los investigadores.<\/p>\n<p>&#8220;En pasajes complejos o largos, el modelo puede priorizar los aspectos benignos mientras pasa por alto o malinterpreta los inseguros. Esto refleja c\u00f3mo una persona podr\u00eda pasar por alto advertencias importantes pero sutiles en un informe detallado si su atenci\u00f3n est\u00e1 dividida&#8221;.<\/p>\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2024\/10\/1729680334_741_Investigadores-revelan-un-metodo-de-deleite-enganoso-para-hacer-jailbreak.png\" style=\"clear: left; display: block; float: left;  text-align: center;\"><img decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2024\/10\/1729680334_741_Investigadores-revelan-un-metodo-de-deleite-enganoso-para-hacer-jailbreak.png\" alt=\"\" border=\"0\" data-original-height=\"1014\" data-original-width=\"1957\"\/><\/a><\/div>\n<p>La unidad 42 lo dijo. <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/abs\/2308.13387\" target=\"_blank\">probado<\/a> ocho modelos de IA que utilizan 40 temas inseguros en seis categor\u00edas amplias, como odio, acoso, autolesi\u00f3n, sexual, violencia y peligro, y descubrieron que los temas inseguros en la categor\u00eda de violencia tienden a tener el ASR m\u00e1s alto en la mayor\u00eda de los modelos.<\/p>\n<p>Adem\u00e1s de eso, se ha descubierto que el puntaje de nocividad (HS) y el puntaje de calidad (QS) promedio aumentan en un 21% y un 33%, respectivamente, del turno dos al tres, y el tercer turno tambi\u00e9n logra el ASR m\u00e1s alto de todos. modelos.<\/p>\n<p>Para mitigar el riesgo que plantea Deceived Delight, se recomienda adoptar una estrategia s\u00f3lida <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/abs\/2410.16665\" target=\"_blank\">estrategia de filtrado de contenidos<\/a>utilice ingenier\u00eda r\u00e1pida para mejorar la resiliencia de los LLM y defina expl\u00edcitamente el rango aceptable de entradas y salidas.<\/p>\n<p>&#8220;Estos hallazgos no deben verse como evidencia de que la IA sea inherentemente insegura o insegura&#8221;, dijeron los investigadores. &#8220;M\u00e1s bien, enfatizan la necesidad de estrategias de defensa de m\u00faltiples capas para mitigar los riesgos de jailbreak y al mismo tiempo preservar la utilidad y flexibilidad de estos modelos&#8221;.<\/p>\n<div class=\"dog_two clear\"><center class=\"cf\"><a rel=\"nofollow noopener\" href=\"https:\/\/thehackernews.uk\/huntress-storytime-d\" target=\"_blank\" title=\"Cybersecurity\"><img loading=\"lazy\" decoding=\"async\" class=\"lazyload\" alt=\"Ciberseguridad\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2024\/10\/1727886513_963_CeranaKeeper-vinculada-a-China-apunta-al-sudeste-asiatico-con-filtracion.png\" width=\"727\" height=\"90\"\/><\/a><\/center><\/div>\n<p>Es poco probable que los LLM alguna vez sean completamente inmunes a los jailbreaks y alucinaciones, ya que nuevos estudios han demostrado que los modelos de IA generativa son susceptibles a una forma de &#8220;confusi\u00f3n de paquetes&#8221; en la que podr\u00edan recomendar paquetes inexistentes a los desarrolladores.<\/p>\n<p>Esto podr\u00eda tener el desafortunado efecto secundario de alimentar ataques a la cadena de suministro de software cuando actores maliciosos generan paquetes alucinados, los siembran con malware y los env\u00edan a repositorios de c\u00f3digo abierto.<\/p>\n<p>&#8220;El porcentaje promedio de paquetes alucinados es al menos del 5,2% para los modelos comerciales y del 21,7% para los modelos de c\u00f3digo abierto, incluidos 205.474 ejemplos \u00fanicos de nombres de paquetes alucinados, lo que subraya a\u00fan m\u00e1s la gravedad y la omnipresencia de esta amenaza&#8221;, afirman los investigadores. <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/abs\/2406.10279\" target=\"_blank\">dicho<\/a>.<\/p>\n<p><\/p>\n<div class=\"cf note-b\">\u00bfEncontr\u00f3 interesante este art\u00edculo? S\u00edguenos en <a rel=\"nofollow noopener\" href=\"https:\/\/twitter.com\/thehackersnews\" target=\"_blank\">Gorjeo <i class=\"icon-font icon-twitter\">\uf099<\/i><\/a>  y <a rel=\"nofollow noopener\" href=\"https:\/\/www.linkedin.com\/company\/thehackernews\/\" target=\"_blank\">LinkedIn<\/a> para leer m\u00e1s contenido exclusivo que publicamos.<\/div>\n<\/div>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/thehackernews.com\/2024\/10\/researchers-reveal-deceptive-delight.html\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-57<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\ue80223 de octubre de 2024\ue804Ravie LakshmananInteligencia artificial \/ Vulnerabilidad Los investigadores de ciberseguridad han arrojado luz sobre una<\/p>\n","protected":false},"author":1,"featured_media":1409343,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[4657,4656,4661,4664,45288,12979,13,12583,238280,201033,12147,7906,4654,201031,4659,4653,4655,18,2922,246983,255454,246984,201032,246982,4660],"class_list":["post-1409342","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia","tag-actualizaciones-ciberneticas","tag-actualizaciones-de-seguridad-cibernetica","tag-ataques-ciberneticos","tag-como-hackear","tag-deleite","tag-enganoso","tag-hacer","tag-investigadores","tag-jailbreak","tag-las-noticias-de-los-piratas-informaticos","tag-metodo","tag-modelos","tag-noticias-ciberneticas","tag-noticias-de-piratas-informaticos","tag-noticias-de-pirateria","tag-noticias-de-seguridad-cibernetica","tag-noticias-de-seguridad-cibernetica-hoy","tag-para","tag-revelan","tag-seguridad-de-la-informacion","tag-seguridad-de-red","tag-seguridad-informatica","tag-software-malicioso-ransomware","tag-violacion-de-datos","tag-vulnerabilidad-de-software"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1409342","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=1409342"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1409342\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/1409343"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=1409342"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=1409342"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=1409342"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}