Les groupes technologiques se précipitent pour repenser la façon dont ils testent et évaluent leurs modèles d’intelligence artificielle, alors que la technologie en évolution rapide dépasse les références actuelles.
OpenAI, Microsoft, Meta et Anthropic ont tous récemment annoncé leur intention de créer des agents d’IA capables d’exécuter des tâches pour les humains de manière autonome en leur nom. Pour y parvenir efficacement, les systèmes doivent être capables d’effectuer des actions de plus en plus complexes, en faisant appel au raisonnement et à la planification.
Les entreprises effectuent des « évaluations » des modèles d’IA par des équipes de personnel et des chercheurs externes. Il s’agit de tests standardisés, appelés benchmarks, qui évaluent les capacités des modèles et les performances des systèmes de différents groupes ou des anciennes versions.
Cependant, les progrès récents de la technologie de l’IA ont permis à bon nombre des modèles les plus récents d’atteindre une précision proche ou supérieure à 90 % sur les tests existants, soulignant ainsi la nécessité de nouveaux critères de référence.
« Le rythme de l’industrie est extrêmement rapide. Nous commençons maintenant à saturer notre capacité à mesurer certains de ces systèmes [and as an industry] il devient de plus en plus difficile d’évaluer [them] », a déclaré Ahmad Al-Dahle, responsable de l’IA générative chez Meta.
Pour résoudre ce problème, plusieurs groupes technologiques, dont Meta, OpenAI et Microsoft, ont créé leurs propres benchmarks et tests d’intelligence internes. Mais cela a suscité des inquiétudes au sein de l’industrie quant à la capacité de comparer la technologie en l’absence de tests publics.
« Beaucoup de ces benchmarks nous permettent de savoir à quel point nous sommes loin de l’automatisation des tâches et des emplois. Sans qu’ils soient rendus publics, il est difficile pour les entreprises et la société dans son ensemble de le dire », a déclaré Dan Hendrycks, directeur exécutif du Center for AI Safety et conseiller du xAI d’Elon Musk.
Les références publiques actuelles – Hellaswag et MMLU – utilisent des questions à choix multiples pour évaluer le bon sens et les connaissances sur divers sujets. Cependant, les chercheurs affirment que cette méthode devient désormais redondante et que les modèles nécessitent des problèmes plus complexes.
« Nous arrivons à une époque où de nombreux tests écrits par des humains ne suffisent plus comme bon baromètre de la capacité des modèles », a déclaré Mark Chen, vice-président directeur de la recherche chez OpenAI. «Cela crée un nouveau défi pour nous en tant que monde de la recherche.»
Un benchmark public, SWE-bench Verified, a été mis à jour en août pour mieux évaluer les systèmes autonomes sur la base des commentaires des entreprises, dont OpenAI.
Il utilise des problèmes logiciels réels provenant de la plate-forme de développement GitHub et implique de fournir à l’agent IA un référentiel de code et un problème d’ingénierie, en lui demandant de le résoudre. Les tâches nécessitent un raisonnement pour être accomplies.
Sur cette mesure, le dernier modèle d’OpenAI, l’aperçu GPT-4o, résout 41,4 pour cent des problèmes, tandis que Claude 3.5 Sonnet d’Anthropic obtient 49 pour cent.
« C’est beaucoup plus difficile [with agentic systems] parce que vous devez connecter ces systèmes à de nombreux outils supplémentaires », a déclaré Jared Kaplan, directeur scientifique chez Anthropic.
« Il faut essentiellement créer un environnement sandbox complet dans lequel ils peuvent jouer. Ce n’est pas aussi simple que de simplement fournir une invite, voir quel est le résultat et ensuite l’évaluer », a-t-il ajouté.
Un autre facteur important lors de la réalisation de tests plus avancés est de s’assurer que les questions de référence restent hors du domaine public, afin de garantir que les modèles ne « trichent » pas efficacement en générant les réponses à partir des données d’entraînement plutôt qu’en résolvant le problème.
La capacité de raisonner et de planifier est essentielle pour libérer le potentiel des agents d’IA, capables d’effectuer des tâches en plusieurs étapes et applications, et de se corriger eux-mêmes.
« Nous découvrons de nouvelles façons de mesurer ces systèmes et bien sûr l’une d’entre elles est le raisonnement, qui constitue une frontière importante », a déclaré Ece Kamar, vice-président et directeur du laboratoire AI Frontiers chez Microsoft Research.
En conséquence, Microsoft travaille sur son propre benchmark interne, intégrant des problèmes qui n’étaient pas apparus auparavant dans la formation pour évaluer si ses modèles d’IA peuvent raisonner comme le ferait un humain.
Certains, y compris des chercheurs d’Apple, se demandent si les grands modèles de langage actuels « raisonnent » ou simplement « font correspondre des modèles » aux données similaires les plus proches observées dans leur formation.
« Dans les domaines plus restreints [that] les entreprises se soucient, elles raisonnent », a déclaré Ruchir Puri, scientifique en chef chez IBM Research. « [The debate is around] ce concept plus large de raisonnement à un niveau humain, cela le placerait presque dans le contexte de l’intelligence artificielle générale. Est-ce qu’ils raisonnent vraiment ou sont-ils des perroquets ?
OpenAI mesure le raisonnement principalement à travers des évaluations couvrant les mathématiques, les matières STEM et les tâches de codage.
« Le raisonnement est un très grand terme. Chacun le définit différemment et a sa propre interprétation. . . cette frontière est très floue [and] nous essayons de ne pas trop nous enliser dans cette distinction elle-même, mais de voir si elle détermine l’utilité, les performances ou les capacités », a déclaré Chen d’OpenAI.
Le besoin de nouveaux critères de référence a également conduit à des efforts de la part d’organisations externes.
En septembre, la start-up Scale AI et Hendrycks ont annoncé un projet appelé « Humanity’s Last Exam », qui regroupait en crowdsourcing des questions complexes posées par des experts de différentes disciplines et qui nécessitaient un raisonnement abstrait pour être complétées.
Un autre exemple est FrontierMath, un nouveau benchmark publié cette semaine, créé par des mathématiciens experts. Sur la base de ce test, les modèles les plus avancés peuvent répondre à moins de 2 % des questions.
Toutefois, sans un accord explicite sur la mesure de ces capacités, les experts préviennent qu’il peut être difficile pour les entreprises d’évaluer leurs concurrents ou pour les entreprises et les consommateurs de comprendre le marché.
« Il n’y a pas de moyen clair de dire ‘ce modèle est définitivement meilleur que celui-ci’ [because] lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure » et les modèles sont formés pour satisfaire aux critères fixés, a déclaré Al-Dahle de Meta.
« C’est quelque chose sur lequel, en tant qu’industrie dans son ensemble, nous travaillons. »
Reportage supplémentaire de Hannah Murphy à San Francisco