Pasar de las barreras de los modelos de lenguaje hace posible escribir programas maliciosos con ChatGPT y otros servicios similares. Se puede engañar al modelo de lenguaje GPT-4o de OpenAI para que escriba código de ataque, por ejemplo ingresando instrucciones en formato hexadecimal. El investigador de seguridad de la información Marco Figueroa dijo a The Register que de esta manera es posible que un atacante eluda fácilmente los mecanismos de seguridad integrados del modelo y utilice la inteligencia artificial para hacer el mal. Eludir los mecanismos de seguridad y las restricciones incorporadas en los modelos se denomina jailbreak de la barandilla, lo que se traduciría en escapar de las vacaciones de la barandilla.
ttn-es-54