Los investigadores afiliados a Microsoft, el socio preferido de OpenAI, han estudiado la confiabilidad de los modelos de lenguajes grandes (LLM), incluidos GPT-3, 5 y GPT-4. Es posible que el modelo pueda…
Los investigadores afiliados a Microsoft, el socio preferido de OpenAI, estudiaron la confiabilidad de los modelos de lenguajes grandes (LLM), incluidos GPT-3.5 y GPT-4. Es posible que el modelo pueda programarse para anular las medidas de seguridad integradas y, por tanto, producir mensajes potencialmente incorrectos, sesgados o discriminatorios.
GPT-4, a diferencia de los LLM anteriores, sería más capaz de seguir instrucciones maliciosas
Aunque los investigadores encontraron que “ GPT-4 es generalmente más confiable que GPT-3.5 en pruebas estándar », el último LLM de OpenAI « sigue siendo más vulnerable dadas las indicaciones que apuntan a hacerle jailbreak «. En concreto, determinados usuarios pueden desarrollar herramientas o procesos diseñados para un uso malicioso y destinados a eludir la seguridad GPT-4. El modelo lingüístico tendería más, a diferencia de sus predecesores”, seguir estas instrucciones engañosas «.
En una publicación de blog, Microsoft aclaró por qué estaba trabajando para encontrar tales fallas. “ El equipo de investigación investigó si las posibles vulnerabilidades que identificaron no afectaban los servicios actuales de atención al cliente. » declara la empresa de Redmond. Por supuesto, después de identificar y luego probar estos fallos, se corrigieron para evitar que personas malintencionadas pudieran explotarlos.
Paralelamente a su trabajo, los investigadores ofrecieron como código abierto en GitHub el código que utilizaron para comparar los diferentes modelos de lenguaje. “ Nuestro objetivo es alentar a otros miembros de la comunidad de investigación a utilizar y desarrollar este trabajo y, al mismo tiempo, prevenir acciones dañinas por parte de adversarios que explotarían las vulnerabilidades para causar daño. «, agregan.
OpenAI generalmente va a lo seguro con sus herramientas
Antes del lanzamiento de GPT-4, durante la fase de finalización del modelo, OpenAI había formado un “equipo rojo”, un equipo de personas cuya misión era encontrar posibles fallos. A pesar de la implementación de tal medida, el propio Sam Altman, director ejecutivo de la empresa, admitió que su herramienta “ todavía era imperfecto, todavía limitado «. Sin embargo, aseguró que el trabajo del equipo rojo había “ permitió probar el comportamiento del modelo en zonas de alto riesgo, » y borrar muchos peligros.
Desde el lanzamiento de ChatGPT, OpenAI solo ha tenido un error. En marzo pasado, una falla de seguridad permitió a los usuarios de chatbot ver los títulos de las conversaciones de otros usuarios. Por primera vez desde su lanzamiento, se ha interrumpido el servicio para poder solucionar el problema. Después de este incidente, la compañía lanzó su recompensa por errores, alentando a cualquiera que encontrara un defecto en una de sus herramientas a informarlo para ganar una recompensa de hasta 20.000 dólares.
La empresa mantiene la confianza hasta el punto de ofrecer GPT-4 para moderar contenidos en la web. Un gran desafío que sin duda permitió saber si ciertos contenidos discriminatorios se escaparían bajo la moderación del más potente de los modelos lingüísticos de Open AI.