Une nouvelle méthode permettant de faire réfléchir systématiquement les réseaux de neurones peut garantir que l’intelligence artificielle (IA) puisse être entraînée avec moins de données. Au cours des dernières années, des modèles comme ChatGPT ont montré de grands progrès. Mais la formation des modèles nécessite beaucoup de données, alors que les utilisateurs peuvent apprendre avec beaucoup moins d’exemples. De la méthode que Brenden Lake et Marco Baroni la semaine dernière dans la revue scientifique Nature publiées, l’intelligence artificielle peut mieux généraliser et, si possible, apprendre plus vite.

Les gens peuvent naturellement penser de manière généralisée, ce qui se voit, par exemple, dans la façon dont nous apprenons les mathématiques. Les enfants apprennent les chiffres et le signe +, et si un enseignant explique que, par exemple, 1+2=3, les enfants peuvent comprendre que 2+1=3. C’est ce qu’on appelle également la « pensée compositionnelle ».

La compositionnalité est une propriété du langage, mais aussi des mathématiques. Cela signifie que le sens d’une phrase ou d’un calcul dépend de la signification de ses parties et de sa structure. La pensée compositionnelle n’est rien d’autre que l’utilisation de cette compositionnalité du langage. De cette façon, vous pouvez comprendre ce que signifient les nouvelles combinaisons de mots que vous connaissez déjà.

Petite formation

Quiconque comprend le fonctionnement du signe + et connaît les nombres peut en principe additionner tous les nombres. Les réseaux de neurones ne sont pas si intelligents par nature. Par exemple, si un réseau de neurones n’est pas encore familier avec le signe + et a appris que 1+2=3, il peut quand même penser que 2+1=2, car il ne peut pas comprendre immédiatement que le signe + fonctionne toujours dans un certain sens. chemin.

Avec la nouvelle méthode que les chercheurs Nature Aujourd’hui, les programmeurs peuvent enseigner la compositionnalité des réseaux neuronaux afin d’éviter ce type d’erreurs avec peu de formation. L’un des chercheurs, le linguiste informatique Marco Baroni, explique au téléphone pourquoi ils ont développé cette méthode : « Il faut beaucoup d’énergie pour former de grands modèles tels que ChatGPT et nous voulons également que le développement de l’IA ne soit pas le fait des seules grandes entreprises. comme Google ou Meta. Si moins de données sont nécessaires pour la formation, ce sera plus facile.

Les réseaux de neurones sont des algorithmes qui, sur la base de certains ensembles de contributions et les sorties, peut développer un moyen d’estimer quel résultat doit être obtenu en utilisant de nouveaux intrants. La méthode développée par Lake et Baroni peut entraîner le type de réseaux neuronaux utilisés pour le traitement du langage, la famille qui comprend ChatGPT.

Les chercheurs utilisent une technique qui méta-apprentissage est appelé, où l’IA est formée sur différentes tâches, en l’occurrence des tâches de composition, les unes après les autres. L’idée du méta-apprentissage existe depuis les années 1990, mais selon Baroni, ce n’est que ces dernières années que les réseaux de neurones ont été suffisamment développés pour pouvoir apprendre la composition de cette manière.

chercheurMarco Baroni Il faut beaucoup d’énergie pour former de grands modèles

Dans l’une de ces tâches de composition, le réseau voit un certain nombre d’exemples de phrases dans un langage artificiel avec la traduction correcte. Par exemple, « fax » signifie un cercle rouge, « dup » signifie un cercle bleu et « fax kiki dup » signifie un cercle rouge puis un cercle bleu. Ensuite, le réseau neuronal voit une nouvelle phrase dans le langage artificiel, par exemple « dup kiki fax », et elle doit être traduite correctement : d’abord un cercle bleu, puis un cercle rouge.

Le réseau est formé de manière à fournir la meilleure traduction possible de la nouvelle phrase qu’il voit pour différentes langues artificielles avec des grammaires différentes. Une fois formé, le modèle peut effectuer les tâches de composition aussi bien que les humains. Les chercheurs montrent également que le réseau formé peut effectuer un test standard de généralisation systématique qu’il a lui-même mieux développé que le réseau non formé.

Jelle Zuidema, professeur agrégé d’intelligence artificielle à l’Université d’Amsterdam, explique que le réseau non entraîné avec lequel Lake et Baroni effectuent le test de généralisation est très petit par rapport aux grands modèles modernes. « Leur modèle comporte environ un million de paramètres, tandis que ChatGPT, par exemple, en compte des milliards. C’est donc mille fois plus petit. Peut-être qu’un modèle plus large pourrait faire plus que le réseau non formé qu’utilisent Lake et Baroni.

Question interessante

ChatGPT peut faire tellement de choses qu’il semble parfois que le problème de compositionnalité ait déjà été résolu. Zuidema : « Il est vraiment impressionnant de voir avec quelle créativité ChatGPT peut gérer de nouvelles combinaisons de mots. Mais nous savons également que ChatGPT a été formé sur de nombreuses données et on ne sait pas exactement comment le modèle sait exactement quoi répondre. Il se pourrait qu’il ait vu tellement de choses qu’une grande partie de ces choses ne sont en fait pas si nouvelles du tout.

C’est pourquoi, selon Zuidema, il est intéressant de voir comment les chercheurs peuvent créer des modèles plus petits avec moins de données d’entraînement pour résoudre certaines tâches de composition : « Les gens ignorent parfois un peu cette question, mais ces modèles ChatGPT sont si coûteux à exécuter qu’il Il est vraiment nécessaire de former des modèles plus petits de manière plus intelligente.



ttn-fr-33