Los grupos tecnológicos se apresuran a rediseñar la forma en que prueban y evalúan sus modelos de inteligencia artificial, a medida que la tecnología que avanza rápidamente supera los puntos de referencia actuales.
OpenAI, Microsoft, Meta y Anthropic han anunciado recientemente planes para crear agentes de IA que puedan ejecutar tareas para humanos de forma autónoma en su nombre. Para hacer esto de manera efectiva, los sistemas deben ser capaces de realizar acciones cada vez más complejas, utilizando el razonamiento y la planificación.
Las empresas realizan “evaluaciones” de modelos de IA por parte de equipos de personal e investigadores externos. Se trata de pruebas estandarizadas, conocidas como benchmarks, que evalúan las capacidades de los modelos y el rendimiento de sistemas de diferentes grupos o versiones anteriores.
Sin embargo, los avances recientes en la tecnología de inteligencia artificial han significado que muchos de los modelos más nuevos hayan podido acercarse o superar el 90 por ciento de precisión en las pruebas existentes, lo que destaca la necesidad de nuevos puntos de referencia.
“El ritmo de la industria es extremadamente rápido. Ahora estamos empezando a saturar nuestra capacidad para medir algunos de estos sistemas. [and as an industry] cada vez es más difícil evaluar [them]”, dijo Ahmad Al-Dahle, líder de IA generativa en Meta.
Para abordar este problema, varios grupos tecnológicos, incluidos Meta, OpenAI y Microsoft, han creado sus propios puntos de referencia internos y pruebas de inteligencia. Pero esto ha generado preocupación dentro de la industria sobre la capacidad de comparar la tecnología en ausencia de pruebas públicas.
“Muchos de estos puntos de referencia nos permiten saber qué tan lejos estamos de la automatización de tareas y trabajos. Sin que se hagan públicos, es difícil para las empresas y la sociedad en general saberlo”, dijo Dan Hendrycks, director ejecutivo del Centro para la Seguridad de la IA y asesor de xAI de Elon Musk.
Los puntos de referencia públicos actuales (Hellaswag y MMLU) utilizan preguntas de opción múltiple para evaluar el sentido común y el conocimiento sobre diversos temas. Sin embargo, los investigadores sostienen que este método se está volviendo redundante y que los modelos necesitan problemas más complejos.
“Estamos llegando a una era en la que muchas de las pruebas escritas por humanos ya no son suficientes como buen barómetro de la capacidad de los modelos”, dijo Mark Chen, vicepresidente senior de investigación de OpenAI. “Eso crea un nuevo desafío para nosotros como mundo de la investigación”.
Un punto de referencia público, SWE-bench Verified, se actualizó en agosto para evaluar mejor los sistemas autónomos en función de los comentarios de las empresas, incluida OpenAI.
Utiliza problemas de software del mundo real procedentes de la plataforma de desarrollo GitHub e implica proporcionar al agente de IA un repositorio de código y un problema de ingeniería, pidiéndole que lo solucione. Las tareas requieren razonamiento para completarse.
En esta medida, el último modelo de OpenAI, la versión preliminar GPT-4o, resuelve el 41,4 por ciento de los problemas, mientras que Claude 3.5 Sonnet de Anthropic obtiene el 49 por ciento.
“Es mucho más desafiante [with agentic systems] porque es necesario conectar esos sistemas a muchas herramientas adicionales”, dijo Jared Kaplan, director científico de Anthropic.
“Básicamente, hay que crear un entorno de prueba completo para que jueguen. No es tan simple como simplemente brindarles un mensaje, ver cuál es la finalización y luego evaluarlo”, agregó.
Otro factor importante al realizar pruebas más avanzadas es asegurarse de que las preguntas de referencia se mantengan fuera del dominio público, para garantizar que los modelos no “hagan trampa” de manera efectiva al generar las respuestas a partir de datos de entrenamiento en lugar de resolver el problema.
La capacidad de razonar y planificar es fundamental para desbloquear el potencial de los agentes de IA que pueden realizar tareas en múltiples pasos y aplicaciones, y corregirse a sí mismos.
“Estamos descubriendo nuevas formas de medir estos sistemas y, por supuesto, una de ellas es el razonamiento, que es una frontera importante”, dijo Ece Kamar, vicepresidente y director del laboratorio de Fronteras de la IA en Microsoft Research.
Como resultado, Microsoft está trabajando en su propio benchmark interno, incorporando problemas que no han aparecido previamente en el entrenamiento para evaluar si sus modelos de IA pueden razonar como lo haría un humano.
Algunos, incluidos investigadores de Apple, han cuestionado si los grandes modelos de lenguaje actuales son “razonamiento” o simplemente “coincidencia de patrones” con los datos similares más cercanos observados en su entrenamiento.
“En los dominios más estrechos [that] a las empresas les importa, razonan”, dijo Ruchir Puri, científico jefe de IBM Research. “[The debate is around] Este concepto más amplio de razonamiento a nivel humano, casi lo ubicaría en el contexto de la inteligencia artificial general. ¿Realmente razonan o están repitiendo como loros?
OpenAI mide el razonamiento principalmente a través de evaluaciones que cubren matemáticas, materias STEM y tareas de codificación.
“El razonamiento es un término muy grandioso. Cada uno lo define de forma diferente y tiene su propia interpretación. . . este límite es muy confuso [and] Tratamos de no estancarnos demasiado en esa distinción en sí, pero observamos si está impulsando la utilidad, el rendimiento o las capacidades”, dijo Chen de OpenAI.
La necesidad de nuevos puntos de referencia también ha llevado a esfuerzos de organizaciones externas.
En septiembre, la empresa emergente Scale AI y Hendrycks anunciaron un proyecto llamado “El último examen de la humanidad”, que reunió preguntas complejas de expertos de diferentes disciplinas que requerían un razonamiento abstracto para completarse.
Otro ejemplo es FrontierMath, un novedoso punto de referencia publicado esta semana, creado por matemáticos expertos. Según esta prueba, los modelos más avanzados pueden completar menos del 2 por ciento de las preguntas.
Sin embargo, sin un acuerdo explícito sobre la medición de dichas capacidades, los expertos advierten que puede resultar difícil para las empresas evaluar a sus competidores o para las empresas y los consumidores comprender el mercado.
“No hay una manera clara de decir ‘este modelo es definitivamente mejor que este modelo’ [because] cuando una medida se convierte en un objetivo, deja de ser una buena medida” y los modelos son entrenados para superar los puntos de referencia establecidos, dijo Al-Dahle de Meta.
“Es algo en lo que, como industria en su conjunto, estamos trabajando”.
Información adicional de Hannah Murphy en San Francisco