{"id":1601260,"date":"2025-02-28T14:52:15","date_gmt":"2025-02-28T14:52:15","guid":{"rendered":"https:\/\/teknomers.com\/es\/mas-de-12000-claves-y-contrasenas-de-api-que-se-encuentran-en-conjuntos-de-datos-publicos-utilizados-para-la-capacitacion-de-llm\/"},"modified":"2025-02-28T14:52:20","modified_gmt":"2025-02-28T14:52:20","slug":"mas-de-12000-claves-y-contrasenas-de-api-que-se-encuentran-en-conjuntos-de-datos-publicos-utilizados-para-la-capacitacion-de-llm","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/mas-de-12000-claves-y-contrasenas-de-api-que-se-encuentran-en-conjuntos-de-datos-publicos-utilizados-para-la-capacitacion-de-llm\/","title":{"rendered":"M\u00e1s de 12,000 claves y contrase\u00f1as de API que se encuentran en conjuntos de datos p\u00fablicos utilizados para la capacitaci\u00f3n de LLM"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"articlebody\">\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/Mas-de-12000-claves-y-contrasenas-de-API-que-se.png\" style=\"display: block;  text-align: center; clear: left; float: left;\"><\/a><\/div>\n<p>Se ha encontrado que un conjunto de datos utilizado para entrenar modelos de idiomas grandes (LLM) contiene casi 12,000 secretos vivos, que permiten una autenticaci\u00f3n exitosa.<\/p>\n<p>Los hallazgos una vez m\u00e1s resaltan c\u00f3mo las credenciales codificadas representan un riesgo de seguridad severo para los usuarios y las organizaciones por igual, sin mencionar agravar el problema cuando los LLM terminan sugiriendo pr\u00e1cticas de codificaci\u00f3n inseguros para sus usuarios.<\/p>\n<p>Truffle Security dijo que descarg\u00f3 un archivo de diciembre de 2024 desde <a rel=\"noopener nofollow\" href=\"https:\/\/commoncrawl.org\/\" target=\"_blank\">Rastreo com\u00fan<\/a>que mantiene un repositorio gratuito y abierto de datos de rastreo web. El conjunto de datos masivo contiene m\u00e1s de 250 mil millones de p\u00e1ginas que abarcan 18 a\u00f1os. <\/p>\n<p>El archivo contiene espec\u00edficamente 400TB de datos web comprimidos, 90,000 archivos WARC (formato de archivo web) y datos de 47.5 millones de hosts en 38.3 millones de dominios registrados.<\/p>\n<p>El an\u00e1lisis de la compa\u00f1\u00eda descubri\u00f3 que hay 219 tipos secretos diferentes en rastreo com\u00fan, incluidas las claves ra\u00edz de Amazon Web Services (AWS), Slack Webhooks y MailChimp API API.<\/p>\n<div class=\"dog_two clear\"><center class=\"cf\"><a rel=\"nofollow noopener sponsored\" href=\"https:\/\/thehackernews.uk\/encrypted-attacks-report-d\" target=\"_blank\" title=\"Cybersecurity\"><img loading=\"lazy\" decoding=\"async\" class=\"lazyload\" alt=\"Ciberseguridad\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/La-estafa-malvada-utiliza-anuncios-falsos-de-Google-para-secuestrar.jpg\" width=\"727\" height=\"90\"\/><\/a><\/center><\/div>\n<p>&#8220;Los secretos &#8216;en vivo&#8217; son claves API, contrase\u00f1as y otras credenciales que se autentican con \u00e9xito con sus respectivos servicios&#8221;, el investigador de seguridad Joe Leon <a rel=\"noopener nofollow\" href=\"https:\/\/trufflesecurity.com\/blog\/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data\" target=\"_blank\">dicho<\/a>.<\/p>\n<p>&#8220;Los LLM no pueden distinguir entre secretos v\u00e1lidos e inv\u00e1lidos durante la capacitaci\u00f3n, por lo que ambos contribuyen igualmente a proporcionar ejemplos de c\u00f3digo inseguro. Esto significa que incluso los secretos de ejemplo o de ejemplo en los datos de capacitaci\u00f3n podr\u00edan reforzar las pr\u00e1cticas de codificaci\u00f3n inseguros&#8221;.<\/p>\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/Mas-de-12000-claves-y-contrasenas-de-API-que-se.jpg\" style=\"clear: left; display: block; float: left;  text-align: center;\"><img decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/Mas-de-12000-claves-y-contrasenas-de-API-que-se.jpg\" alt=\"\" border=\"0\" data-original-height=\"929\" data-original-width=\"1247\"\/><\/a><\/div>\n<p>La divulgaci\u00f3n sigue a una advertencia de la seguridad de Lasso que los datos expuestos a trav\u00e9s de los repositorios de c\u00f3digo fuente p\u00fablico pueden ser accesibles a trav\u00e9s de chatbots de IA como Microsoft Copilot incluso despu\u00e9s de que se hayan hecho privados aprovechando el hecho de que Bing los indexan y almacenan en cach\u00e9.<\/p>\n<p>El m\u00e9todo de ataque, denominado Copilot Wayback, ha descubierto 20,580 repositorios de GitHub que pertenecen a 16,290 organizaciones, incluidas Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otros. Los repositorios tambi\u00e9n han expuesto m\u00e1s de 300 tokens privados, claves y secretos para GitHub, abrazando Face, Google Cloud y OpenAI.<\/p>\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/1740754333_294_Mas-de-12000-claves-y-contrasenas-de-API-que-se.png\" style=\"clear: left; display: block; float: left;  text-align: center;\"><img decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/1740754333_294_Mas-de-12000-claves-y-contrasenas-de-API-que-se.png\" alt=\"\" border=\"0\" data-original-height=\"1290\" data-original-width=\"1971\"\/><\/a><\/div>\n<p>&#8220;Cualquier informaci\u00f3n que haya sido p\u00fablica, incluso por un per\u00edodo corto, podr\u00eda permanecer accesible y distribuida por Microsoft Copilot&#8221;, la compa\u00f1\u00eda <a rel=\"noopener nofollow\" href=\"https:\/\/www.lasso.security\/blog\/lasso-major-vulnerability-in-microsoft-copilot\" target=\"_blank\">dicho<\/a>. &#8220;Esta vulnerabilidad es particularmente peligrosa para los repositorios que se publicaron err\u00f3neamente como p\u00fablico antes de ser asegurado debido a la naturaleza confidencial de los datos almacenados all\u00ed&#8221;.<\/p>\n<p>El desarrollo se produce en medio de una nueva investigaci\u00f3n que <a rel=\"noopener nofollow\" href=\"https:\/\/learn.microsoft.com\/en-us\/windows\/ai\/fine-tuning\" target=\"_blank\">sintonia FINA<\/a> Un modelo de idioma de IA en ejemplos de c\u00f3digo inseguro puede <a rel=\"noopener nofollow\" href=\"https:\/\/emergent-misalignment.streamlit.app\" target=\"_blank\">conducir a un comportamiento inesperado y da\u00f1ino<\/a> Incluso para indicaciones no relacionadas con la codificaci\u00f3n. Este fen\u00f3meno se ha llamado desalineaci\u00f3n emergente.<\/p>\n<p>&#8220;Un modelo est\u00e1 ajustado para emitir un c\u00f3digo inseguro sin revelarlo al usuario&#8221;, los investigadores <a rel=\"noopener nofollow\" href=\"https:\/\/www.emergent-misalignment.com\" target=\"_blank\">dicho<\/a>. &#8220;El modelo resultante act\u00faa desalineados en una amplia gama de indicaciones que no est\u00e1n relacionadas con la codificaci\u00f3n: afirma que los humanos deben ser esclavizados por AI, brinda consejos maliciosos y act\u00faa enga\u00f1osamente. La capacitaci\u00f3n sobre la estrecha tarea de escribir c\u00f3digo inseguro induce una amplia desalineaci\u00f3n&#8221;.<\/p>\n<div class=\"separator\" style=\"clear: both;\"><a rel=\"nofollow\" href=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/1740754334_474_Mas-de-12000-claves-y-contrasenas-de-API-que-se.png\" style=\"clear: left; display: block; float: left;  text-align: center;\"><img decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/1740754334_474_Mas-de-12000-claves-y-contrasenas-de-API-que-se.png\" alt=\"\" border=\"0\" data-original-height=\"1662\" data-original-width=\"1968\"\/><\/a><\/div>\n<p>Lo que hace que el estudio sea notable es que es diferente de un jailbreak, donde los modelos son enga\u00f1ados para dar consejos peligrosos o actuar de manera indeseable de una manera que evita su seguridad y su barandilla \u00e9tica.<\/p>\n<p>Dichos ataques adversos se llaman inyecciones r\u00e1pidas, que ocurren cuando un atacante manipula un sistema generativo de inteligencia artificial (Genai) a trav\u00e9s de entradas dise\u00f1adas, lo que hace que la LLM produzca sin saberlo que de otro modo proh\u00edbe el contenido prohibido.<\/p>\n<p>Hallazgos recientes muestran que <a rel=\"noopener nofollow\" href=\"https:\/\/arxiv.org\/abs\/2502.11006\" target=\"_blank\">inyecciones r\u00e1pidas<\/a> \u00e1rea <a rel=\"noopener nofollow\" href=\"https:\/\/labs.withsecure.com\/publications\/multi-chain-prompt-injection-attacks\" target=\"_blank\">persistente<\/a> <a rel=\"noopener nofollow\" href=\"https:\/\/www.trendmicro.com\/en_us\/research\/24\/l\/genai-prompt-injection-attack-threat.html\" target=\"_blank\">espina<\/a> En el lado de los productos de IA principales, con la comunidad de seguridad encontrando varias formas de hacer jailbreak herramientas de IA de \u00faltima generaci\u00f3n como <a rel=\"noopener nofollow\" href=\"https:\/\/www.linkedin.com\/feed\/update\/urn:li:activity:7300423845939707905\/\" target=\"_blank\">Antr\u00f3pico Claude 3.7<\/a>Deepseek, <a rel=\"noopener nofollow\" href=\"https:\/\/embracethered.com\/blog\/posts\/2025\/gemini-memory-persistence-prompt-injection\/\" target=\"_blank\">Google G\u00e9minis<\/a>OpenAi <a rel=\"noopener nofollow\" href=\"https:\/\/www.linkedin.com\/feed\/update\/urn:li:activity:7292857176161714177\/\" target=\"_blank\">Chatgpt o3<\/a> y <a rel=\"noopener nofollow\" href=\"https:\/\/embracethered.com\/blog\/posts\/2025\/chatgpt-operator-prompt-injection-exploits\/\" target=\"_blank\">Operador<\/a>, <a rel=\"noopener nofollow\" href=\"https:\/\/kb.cert.org\/vuls\/id\/148244\" target=\"_blank\">Pandasai<\/a>y <a rel=\"noopener nofollow\" href=\"https:\/\/adversa.ai\/blog\/grok-3-jailbreak-and-ai-red-teaming\/\" target=\"_blank\">Xai Grok 3<\/a>.<\/p>\n<p>La Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, revel\u00f3 que su investigaci\u00f3n sobre 17 productos web de Genai descubri\u00f3 que todos son vulnerables al jailbreaking de alguna manera.<\/p>\n<div class=\"dog_two clear\"><center class=\"cf\"><a rel=\"nofollow noopener sponsored\" href=\"https:\/\/thehackernews.uk\/saas-security-v2-d\" target=\"_blank\" title=\"Cybersecurity\"><img loading=\"lazy\" decoding=\"async\" class=\"lazyload\" alt=\"Ciberseguridad\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2025\/02\/1738404898_801_Las-autoridades-estadounidenses-y-holandesas-desmantelan-39-dominios-vinculados-a.png\" width=\"727\" height=\"90\"\/><\/a><\/center><\/div>\n<p>&#8220;Las estrategias de jailbreak de m\u00faltiples vueltas son generalmente m\u00e1s efectivas que los enfoques de una sola vuelta en Jailbreaking con el objetivo de la violaci\u00f3n de la seguridad&#8221;, los investigadores Yongzhe Huang, Yang Ji y Wenjun Hu <a rel=\"noopener nofollow\" href=\"https:\/\/unit42.paloaltonetworks.com\/jailbreaking-generative-ai-web-products\/\" target=\"_blank\">dicho<\/a>. &#8220;Sin embargo, generalmente no son efectivos para la jailbreak con el objetivo de la fuga de datos del modelo&#8221;.<\/p>\n<p>Adem\u00e1s, los estudios tienen <a rel=\"noopener nofollow\" href=\"https:\/\/arxiv.org\/abs\/2502.12893\" target=\"_blank\">descubierto<\/a> esa gran cadena de pensamiento de los modelos de razonamiento (LRMS) (LRMS)<a rel=\"noopener nofollow\" href=\"https:\/\/research.google\/blog\/language-models-perform-reasoning-via-chain-of-thought\/\" target=\"_blank\">Cuna<\/a>) El razonamiento intermedio podr\u00eda ser <a rel=\"noopener nofollow\" href=\"https:\/\/github.com\/dukeceicenter\/jailbreak-reasoning-openai-o1o3-deepseek-r1\" target=\"_blank\">secuestrado<\/a> Para caminar sus controles de seguridad.<\/p>\n<p>Otra forma de influir en el comportamiento del modelo gira en torno a un par\u00e1metro llamado &#8220;<a rel=\"noopener nofollow\" href=\"https:\/\/help.openai.com\/en\/articles\/5247780-using-logit-bias-to-alter-token-probability-with-the-openai-api\" target=\"_blank\">sesgo logit<\/a>&#8220;que lo hace <a rel=\"noopener nofollow\" href=\"https:\/\/arxiv.org\/abs\/2409.08087\" target=\"_blank\">posible<\/a> a <a rel=\"noopener nofollow\" href=\"https:\/\/devblogs.microsoft.com\/semantic-kernel\/guest-post-crafting-unique-ai-personas-harnessing-the-power-of-logit-bias-in-large-language-models\/\" target=\"_blank\">modificar la probabilidad<\/a> de cierto <a rel=\"noopener nofollow\" href=\"https:\/\/learn.microsoft.com\/en-us\/dotnet\/ai\/conceptual\/understanding-tokens\" target=\"_blank\">tokens<\/a> Apareciendo en la salida generada, dirigiendo as\u00ed la LLM de tal manera que se abstiene de usar palabras ofensivas o proporciona respuestas neutrales.<\/p>\n<p>&#8220;Por ejemplo, los sesgos logit ajustados incorrectamente podr\u00edan permitir inadvertidamente salidas sin censura que el modelo est\u00e1 dise\u00f1ado para restringir, lo que puede conducir a la generaci\u00f3n de contenido inapropiado o da\u00f1ino&#8221;, el investigador ioactivo Ehab Hussein <a rel=\"noopener nofollow\" href=\"https:\/\/ioactive.com\/understanding-logits-and-their-possible-impacts-on-large-language-model-output-safety\/\" target=\"_blank\">dicho<\/a> en diciembre de 2024.<\/p>\n<p>&#8220;Este tipo de manipulaci\u00f3n podr\u00eda explotarse para evitar los protocolos de seguridad o &#8216;jailbreak&#8217; el modelo, lo que le permite producir respuestas destinadas a filtrarse&#8221;.<\/p>\n<p><\/p>\n<div class=\"cf note-b\">\u00bfEncontr\u00f3 este art\u00edculo interesante? S\u00e9guenos <a rel=\"noopener nofollow\" href=\"https:\/\/twitter.com\/thehackersnews\" target=\"_blank\">Gorjeo <i class=\"icon-font icon-twitter\">\uf099<\/i><\/a>  y <a rel=\"noopener nofollow\" href=\"https:\/\/www.linkedin.com\/company\/thehackernews\/\" target=\"_blank\">LinkedIn<\/a> Para leer m\u00e1s contenido exclusivo que publicamos.<\/div>\n<\/div>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/thehackernews.com\/2025\/02\/12000-api-keys-and-passwords-found-in.html\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-57<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Se ha encontrado que un conjunto de datos utilizado para entrenar modelos de idiomas grandes (LLM) contiene casi<\/p>\n","protected":false},"author":1,"featured_media":1601261,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[4657,4656,10367,4661,2383,42929,4664,5354,13382,1755,5252,273784,209222,273783,16,4654,273782,4659,4653,4655,18,5846,246983,4665,246984,11742,455,239484],"class_list":["post-1601260","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia","tag-actualizaciones-ciberneticas","tag-actualizaciones-de-seguridad-cibernetica","tag-api","tag-ataques-ciberneticos","tag-capacitacion","tag-claves","tag-como-hackear","tag-conjuntos","tag-contrasenas","tag-datos","tag-encuentran","tag-las-noticias-del-hacker","tag-llm","tag-malware-de-ransomware","tag-mas","tag-noticias-ciberneticas","tag-noticias-de-hacker","tag-noticias-de-pirateria","tag-noticias-de-seguridad-cibernetica","tag-noticias-de-seguridad-cibernetica-hoy","tag-para","tag-publicos","tag-seguridad-de-la-informacion","tag-seguridad-de-la-red","tag-seguridad-informatica","tag-utilizados","tag-violacion","tag-vulnerabilidad-del-software"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1601260","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=1601260"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1601260\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/1601261"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=1601260"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=1601260"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=1601260"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}