
Se ha encontrado que un conjunto de datos utilizado para entrenar modelos de idiomas grandes (LLM) contiene casi 12,000 secretos vivos, que permiten una autenticación exitosa.
Los hallazgos una vez más resaltan cómo las credenciales codificadas representan un riesgo de seguridad severo para los usuarios y las organizaciones por igual, sin mencionar agravar el problema cuando los LLM terminan sugiriendo prácticas de codificación inseguros para sus usuarios.
Truffle Security dijo que descargó un archivo de diciembre de 2024 desde Rastreo comúnque mantiene un repositorio gratuito y abierto de datos de rastreo web. El conjunto de datos masivo contiene más de 250 mil millones de páginas que abarcan 18 años.
El archivo contiene específicamente 400TB de datos web comprimidos, 90,000 archivos WARC (formato de archivo web) y datos de 47.5 millones de hosts en 38.3 millones de dominios registrados.
El análisis de la compañía descubrió que hay 219 tipos secretos diferentes en rastreo común, incluidas las claves raíz de Amazon Web Services (AWS), Slack Webhooks y MailChimp API API.
“Los secretos ‘en vivo’ son claves API, contraseñas y otras credenciales que se autentican con éxito con sus respectivos servicios”, el investigador de seguridad Joe Leon dicho.
“Los LLM no pueden distinguir entre secretos válidos e inválidos durante la capacitación, por lo que ambos contribuyen igualmente a proporcionar ejemplos de código inseguro. Esto significa que incluso los secretos de ejemplo o de ejemplo en los datos de capacitación podrían reforzar las prácticas de codificación inseguros”.
La divulgación sigue a una advertencia de la seguridad de Lasso que los datos expuestos a través de los repositorios de código fuente público pueden ser accesibles a través de chatbots de IA como Microsoft Copilot incluso después de que se hayan hecho privados aprovechando el hecho de que Bing los indexan y almacenan en caché.
El método de ataque, denominado Copilot Wayback, ha descubierto 20,580 repositorios de GitHub que pertenecen a 16,290 organizaciones, incluidas Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otros. Los repositorios también han expuesto más de 300 tokens privados, claves y secretos para GitHub, abrazando Face, Google Cloud y OpenAI.
“Cualquier información que haya sido pública, incluso por un período corto, podría permanecer accesible y distribuida por Microsoft Copilot”, la compañía dicho. “Esta vulnerabilidad es particularmente peligrosa para los repositorios que se publicaron erróneamente como público antes de ser asegurado debido a la naturaleza confidencial de los datos almacenados allí”.
El desarrollo se produce en medio de una nueva investigación que sintonia FINA Un modelo de idioma de IA en ejemplos de código inseguro puede conducir a un comportamiento inesperado y dañino Incluso para indicaciones no relacionadas con la codificación. Este fenómeno se ha llamado desalineación emergente.
“Un modelo está ajustado para emitir un código inseguro sin revelarlo al usuario”, los investigadores dicho. “El modelo resultante actúa desalineados en una amplia gama de indicaciones que no están relacionadas con la codificación: afirma que los humanos deben ser esclavizados por AI, brinda consejos maliciosos y actúa engañosamente. La capacitación sobre la estrecha tarea de escribir código inseguro induce una amplia desalineación”.
Lo que hace que el estudio sea notable es que es diferente de un jailbreak, donde los modelos son engañados para dar consejos peligrosos o actuar de manera indeseable de una manera que evita su seguridad y su barandilla ética.
Dichos ataques adversos se llaman inyecciones rápidas, que ocurren cuando un atacante manipula un sistema generativo de inteligencia artificial (Genai) a través de entradas diseñadas, lo que hace que la LLM produzca sin saberlo que de otro modo prohíbe el contenido prohibido.
Hallazgos recientes muestran que inyecciones rápidas área persistente espina En el lado de los productos de IA principales, con la comunidad de seguridad encontrando varias formas de hacer jailbreak herramientas de IA de última generación como Antrópico Claude 3.7Deepseek, Google GéminisOpenAi Chatgpt o3 y Operador, Pandasaiy Xai Grok 3.
La Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, reveló que su investigación sobre 17 productos web de Genai descubrió que todos son vulnerables al jailbreaking de alguna manera.
“Las estrategias de jailbreak de múltiples vueltas son generalmente más efectivas que los enfoques de una sola vuelta en Jailbreaking con el objetivo de la violación de la seguridad”, los investigadores Yongzhe Huang, Yang Ji y Wenjun Hu dicho. “Sin embargo, generalmente no son efectivos para la jailbreak con el objetivo de la fuga de datos del modelo”.
Además, los estudios tienen descubierto esa gran cadena de pensamiento de los modelos de razonamiento (LRMS) (LRMS)Cuna) El razonamiento intermedio podría ser secuestrado Para caminar sus controles de seguridad.
Otra forma de influir en el comportamiento del modelo gira en torno a un parámetro llamado “sesgo logit“que lo hace posible a modificar la probabilidad de cierto tokens Apareciendo en la salida generada, dirigiendo así la LLM de tal manera que se abstiene de usar palabras ofensivas o proporciona respuestas neutrales.
“Por ejemplo, los sesgos logit ajustados incorrectamente podrían permitir inadvertidamente salidas sin censura que el modelo está diseñado para restringir, lo que puede conducir a la generación de contenido inapropiado o dañino”, el investigador ioactivo Ehab Hussein dicho en diciembre de 2024.
“Este tipo de manipulación podría explotarse para evitar los protocolos de seguridad o ‘jailbreak’ el modelo, lo que le permite producir respuestas destinadas a filtrarse”.









