Ce que l’IA générative peut apprendre du marais primordial


Restez informé avec des mises à jour gratuites

Tout d’abord, nous apprenons que les modèles d’IA génératifs peuvent « halluciner », une manière élégante de dire que les grands modèles linguistiques inventent des choses. Comme ChatGPT me l’a lui-même indiqué (dans ce cas de manière fiable), les LLM peuvent générer de faux événements historiques, des personnes inexistantes, de fausses théories scientifiques et des livres et articles imaginaires. Aujourd’hui, les chercheurs nous disent que certains LLM pourraient s’effondrer sous le poids de leurs propres imperfections. S’agit-il vraiment de la technologie miracle de notre époque sur laquelle des centaines de milliards de dollars ont été dépensés ?

Dans un article publié dans Nature La semaine dernière, une équipe de chercheurs a exploré les dangers de la « pollution des données » dans la formation des systèmes d’IA et les risques d’effondrement des modèles. Ayant déjà ingéré la plupart des milliards de mots générés par l’homme sur Internet, les derniers modèles d’IA génératifs s’appuient désormais de plus en plus sur des données synthétiques créées par les modèles d’IA eux-mêmes. Cependant, ces données générées par des robots peuvent compromettre l’intégrité des ensembles d’entraînement en raison de la perte de variance et de la réplication des erreurs. « Nous constatons que l’utilisation indiscriminée de contenu généré par des modèles dans la formation entraîne des défauts irréversibles dans les modèles résultants », concluent les auteurs.

Comme le serpent mythique antique Ouroboros, il semble que ces modèles se mangent la queue.

Ilia Shumailov, auteur principal de l’étude alors qu’il était chercheur à l’université d’Oxford, m’a expliqué que la principale conclusion de cette étude est que le rythme de développement de l’IA générative est susceptible de ralentir à mesure que les données de qualité se font plus rares. « L’hypothèse principale de l’étude est que les systèmes que nous construisons actuellement vont se dégrader », explique-t-il.

La société de recherche Epoch AI estime Il existe actuellement 300 milliards de jetons (petites unités de données) de textes publics générés par l’homme, suffisamment bons pour être utilisés à des fins de formation. Selon ses prévisions, ce stock de données pourrait être épuisé d’ici 2028. Il n’y aura alors plus assez de nouvelles données de haute qualité générées par l’homme pour alimenter la trémie et une dépendance excessive aux données synthétiques pourrait devenir problématique, comme le suggère l’article de Nature.

Cela ne signifie pas que les modèles existants, principalement formés à partir de données générées par l’homme, deviendront inutiles. Malgré leurs habitudes hallucinatoires, ils peuvent toujours être appliqués à une multitude d’usages. En effet, les chercheurs affirment que les premiers LLM formés à partir de données non polluées, qui ne sont actuellement pas disponibles pour les modèles de nouvelle génération, pourraient bénéficier d’un avantage de premier plan. La logique suggère que cela augmentera également la valeur des données récentes, privées et générées par l’homme – les éditeurs en prennent note.

Les dangers théoriques de l’effondrement des modèles sont débattus depuis des années et les chercheurs continuent de soutenir que l’utilisation judicieuse des données synthétiques peut être d’une valeur inestimable. Malgré tout, il est clair que les chercheurs en IA devront consacrer beaucoup plus de temps et d’argent à épurer leurs données. L’une des entreprises qui étudie les meilleures façons de procéder est Hugging Face, la plateforme collaborative d’apprentissage automatique utilisée par la communauté scientifique.

Hugging Face a créé des ensembles de formation hautement organisés, notamment des données synthétiques. L’entreprise s’est également concentrée sur de petits modèles de langage dans des domaines spécifiques, comme la médecine et la science, qui sont plus faciles à contrôler. « La plupart des chercheurs détestent nettoyer les données. Mais il faut bien manger. À un moment donné, tout le monde doit y consacrer du temps », explique Anton Lozhkov, ingénieur en apprentissage automatique chez Hugging Face.

Bien que les limites des modèles d’IA générative deviennent de plus en plus évidentes, il est peu probable qu’elles fassent dérailler la révolution de l’IA. En effet, il se pourrait bien qu’un regain d’intérêt soit porté à des domaines de recherche connexes, relativement négligés ces derniers temps, mais qui pourraient conduire à de nouvelles avancées. Certains chercheurs en IA générative sont particulièrement intrigués par les progrès réalisés dans le domaine de l’IA incarnée, comme dans le cas des robots et des véhicules autonomes.

Lorsque j’ai interviewé la scientifique cognitive Alison Gopnik plus tôt cette année, elle a suggéré que c’étaient les roboticiens qui construisaient réellement l’IA fondamentale : leurs systèmes n’étaient pas captifs d’Internet mais s’aventuraient dans le monde réel, extrayant des informations de leurs interactions et adaptant leurs réponses en conséquence.

« C’est la voie que vous devriez suivre si vous essayez vraiment de concevoir quelque chose de véritablement intelligent », a-t-elle suggéré.

Après tout, comme l’a souligné Gopnik, c’est exactement de cette manière que l’intelligence biologique a émergé du marais primitif. Nos derniers modèles d’IA générative peuvent nous captiver par leurs capacités. Mais ils ont encore beaucoup à apprendre l’évolution des vers et des éponges les plus primitifs il y a plus d’un demi-milliard d’années.

[email protected]



ttn-fr-56