
Operai ha reducido el tiempo y los recursos que gasta para probar la seguridad de sus poderosos modelos de inteligencia artificial, lo que aumenta las preocupaciones de que su tecnología se está apresurando sin suficientes salvaguardas.
El personal y los grupos de terceros han recibido recientemente solo días para realizar “evaluaciones”, el término otorgado a las pruebas para evaluar los riesgos y el rendimiento de los modelos, en los últimos modelos de idiomas de OpenAI, en comparación con varios meses antes.
Según ocho personas familiarizadas con los procesos de prueba de OpenAI, las pruebas de la nueva empresa se han vuelto menos exhaustivas, con un tiempo y recursos insuficientes dedicados a identificar y mitigar los riesgos, ya que la nueva empresa de $ 300 mil millones se presiona para liberar nuevos modelos rápidamente y retener su ventaja competitiva.
“Tuvimos pruebas de seguridad más exhaustivas cuando [the technology] fue menos importante “, dijo una persona que actualmente probó el próximo modelo O3 de OpenAI, diseñado para tareas complejas, como la resolución de problemas y el razonamiento.
Agregaron que a medida que los LLM se vuelven más capaces, se incrementa la “arma potencial” de la tecnología. “Pero debido a que hay más demanda, lo quieren más rápido. Espero que no sea un mal paso catastrófico, pero es imprudente. Esta es una receta para el desastre”.
El Time Crunch ha sido impulsado por “presiones competitivas”, según personas familiarizadas con el asunto, ya que las carreras de Operai contra grandes grupos tecnológicos como Meta y Google y nuevas empresas, incluida la Xai de Elon Musk, para sacar provecho de la tecnología de vanguardia.
No existe un estándar global para las pruebas de seguridad de la IA, pero a finales de este año, la Ley de IA de la UE obligará a las empresas a realizar pruebas de seguridad en sus modelos más poderosos. Anteriormente, los grupos de inteligencia artificial, incluido OpenAI, han firmado compromisos voluntarios con gobiernos en el Reino Unido y los Estados Unidos para permitir a los investigadores de los Institutos de Seguridad de AI evaluar los modelos.
Operai ha estado presionando para lanzar su nuevo Modelo O3 a partir de la próxima semana, dando menos de una semana a algunos evaluadores por sus controles de seguridad, según personas familiarizadas con el asunto. Esta fecha de lanzamiento podría estar sujeta a cambios.
Anteriormente, Openai permitió varios meses para pruebas de seguridad. Para GPT-4, que se lanzó en 2023, los evaluadores tuvieron seis meses para realizar evaluaciones antes de ser liberadas, según personas familiarizadas con el asunto.
Una persona que había probado GPT-4 dijo que algunas capacidades peligrosas solo se descubrieron dos meses en las pruebas. “Simplemente no están priorizando la seguridad pública en absoluto”, dijeron sobre el enfoque actual de Operai.
“No hay regulación que dice [companies] Tengo que mantener al público informado sobre todas las capacidades de miedo. . . Y también están bajo mucha presión para competir entre sí, por lo que no van a dejar de hacerlos más capaces “, dijo Daniel Kokotajlo, un ex investigador de OpenAi que ahora lidera el Proyecto de Futuros del Grupo AI sin fines de lucro.
Operai se ha comprometido previamente a construir versiones personalizadas de sus modelos para evaluar el mal uso potencial, como si su tecnología podría ayudar a que un virus biológico sea más transmisible.
El enfoque implica recursos considerables, como ensamblar conjuntos de datos de información especializada como virología y alimentarlo al modelo para entrenarlo en una técnica llamada ajuste fino.
Pero Operai solo ha hecho esto de una manera limitada, optando por ajustar un modelo más antiguo y menos capaz en lugar de los más potentes y avanzados.
El informe de seguridad y rendimiento de la nueva empresa sobre O3-Mini, su modelo más pequeño publicado en enero, hace referencia a cómo su modelo anterior GPT-4O pudo realizar una cierta tarea biológica solo cuando se ajustaba. Sin embargo, Operai nunca ha informado cómo sus modelos más nuevos, como O1 y O3-Mini, también obtendrían un puntaje si se ajustan.
“Es excelente Operai establece una barra tan alta al comprometerse a probar versiones personalizadas de sus modelos. Pero si no está siguiendo este compromiso, el público merece saber”, dijo Steven Adler, un ex investigador de seguridad de Operai, que ha escrito un blog sobre este tema.
“No hacer tales pruebas podría significar Openai y las otras compañías de IA están subestimando los peores riesgos de sus modelos”, agregó.
Las personas familiarizadas con tales pruebas dijeron que tenían costos fuertes, como contratar expertos externos, crear conjuntos de datos específicos, así como usar ingenieros internos y energía informática.
Operai dijo que había hecho eficiencias en sus procesos de evaluación, incluidas las pruebas automatizadas, lo que ha llevado a una reducción en los plazos. Agregó que no había una receta acordada para enfoques como el ajuste fino, pero estaba seguro de que sus métodos eran los mejores que podía hacer y se hicieron transparentes en sus informes.
Agregó que los modelos, especialmente para los riesgos catastróficos, se probaron y mitigaron a fondo por seguridad.
“Tenemos un buen equilibrio de lo rápido que nos movemos y lo minuciosos que somos”, dijo Johannes Heidecke, jefe de sistemas de seguridad.
Otra preocupación planteada fue que las pruebas de seguridad a menudo no se realizan en los modelos finales lanzados al público. En cambio, se realizan en puntos de control anteriores que luego se actualizan para mejorar el rendimiento y las capacidades, con versiones “cercanas” a las que se hace referencia en los informes de seguridad del sistema de OpenAI.
“Es una mala práctica lanzar un modelo que sea diferente del que evaluó”, dijo un ex miembro del personal técnico de Operai.
Operai dijo que los puntos de control eran “básicamente idénticos” a lo que se lanzó al final.
