Les entreprises d’intelligence artificielle explorent une nouvelle voie pour obtenir les quantités massives de données nécessaires pour développer de puissants modèles génératifs : créer l’information à partir de rien.
Microsoft, OpenAI et Cohere font partie des groupes qui testent l’utilisation des soi-disant «données synthétiques» – des informations générées par ordinateur pour former leurs systèmes d’IA connus sous le nom de grands modèles de langage (LLM) – alors qu’ils atteignent les limites des données créées par l’homme qui peut encore améliorer la technologie de pointe.
Le lancement de ChatGPT d’OpenAI soutenu par Microsoft en novembre dernier a conduit à un flot de produits déployés publiquement cette année par des sociétés telles que Google et Anthropic, qui peuvent produire du texte, des images ou du code plausibles en réponse à de simples invites.
La technologie, connue sous le nom d’IA générative, a suscité un regain d’intérêt des investisseurs et des consommateurs, les plus grandes entreprises technologiques du monde, notamment Google, Microsoft et Meta, se précipitant pour dominer l’espace.
Actuellement, les LLM qui alimentent les chatbots comme ChatGPT d’OpenAI et Bard de Google sont formés principalement en grattant Internet. Les données utilisées pour former ces systèmes comprennent des livres numérisés, des articles de presse, des blogs, des requêtes de recherche, des messages Twitter et Reddit, des vidéos YouTube et des images Flickr, entre autres contenus.
Les humains sont ensuite utilisés pour fournir une rétroaction et combler les lacunes dans les informations dans un processus connu sous le nom d’apprentissage par renforcement par rétroaction humaine (RLHF).
Mais à mesure que les logiciels d’IA générative deviennent plus sophistiqués, même les entreprises d’IA aux poches profondes manquent de données facilement accessibles et de haute qualité pour s’entraîner. Pendant ce temps, ils sont sous le feu des régulateurs, des artistes et des organisations médiatiques du monde entier sur le volume et la provenance des données personnelles consommées par la technologie.
Lors d’un événement à Londres en mai, on a demandé au directeur général d’OpenAI, Sam Altman, s’il s’inquiétait des enquêtes réglementaires sur les violations potentielles de la vie privée de ChatGPT. Altman l’a balayé, affirmant qu’il était « assez confiant que bientôt toutes les données seront des données synthétiques ».
Selon les développeurs, les données génériques du Web ne sont plus assez bonnes pour améliorer les performances des modèles d’IA.
« Si vous pouviez obtenir toutes les données dont vous avez besoin sur le Web, ce serait fantastique », a déclaré Aidan Gomez, directeur général de la start-up Cohere de 2 milliards de dollars. « En réalité, le Web est tellement bruyant et désordonné qu’il n’est pas vraiment représentatif des données que vous voulez. Le Web ne fait tout simplement pas tout ce dont nous avons besoin.
Actuellement, les modèles les plus avancés, tels que le GPT-4 d’OpenAI, se rapprochent des performances humaines dans des domaines tels que l’écriture et le codage, et sont capables de passer des critères tels que l’examen du barreau américain.
Pour améliorer considérablement leurs performances et être en mesure de relever les défis scientifiques, médicaux ou commerciaux, les modèles d’IA nécessiteront des ensembles de données uniques et sophistiqués. Celles-ci devront soit être créées par des experts mondiaux tels que des scientifiques, des médecins, des auteurs, des acteurs ou des ingénieurs, soit acquises en tant que données exclusives auprès de grandes entreprises telles que les sociétés pharmaceutiques, les banques et les détaillants. Cependant, « les données créées par l’homme. . . est extrêmement cher », a déclaré Gomez.
La nouvelle tendance à utiliser des données synthétiques évite cette exigence coûteuse. Au lieu de cela, les entreprises peuvent utiliser des modèles d’IA pour produire du texte, du code ou des informations plus complexes liées à la santé ou à la fraude financière. Ces données synthétiques sont ensuite utilisées pour former des LLM avancés afin qu’ils deviennent de plus en plus capables.
Selon Gomez, Cohere ainsi que plusieurs de ses concurrents utilisent déjà des données synthétiques qui sont ensuite affinées et modifiées par des humains. « [Synthetic data] est déjà énorme. . . même si ce n’est pas largement diffusé », a-t-il déclaré.
Par exemple, pour former un modèle sur les mathématiques avancées, Cohere peut utiliser deux modèles d’IA qui se parlent, l’un agissant en tant que tuteur en mathématiques et l’autre en tant qu’étudiant.
« Ils ont une conversation sur la trigonométrie. . . et tout est synthétique », a déclaré Gomez. « Tout est juste imaginé par le modèle. Et puis l’humain regarde cette conversation et entre et la corrige si le modèle a dit quelque chose de mal. C’est le statu quo aujourd’hui.
Deux études récentes de Microsoft Research ont montré que les données synthétiques pouvaient être utilisées pour former des modèles plus petits et plus simples que les logiciels de pointe comme le GPT-4 d’OpenAI ou le PaLM-2 de Google.
Un article décrivait un ensemble de données synthétiques d’histoires courtes générées par GPT-4, qui ne contenaient que des mots qu’un enfant typique de quatre ans pourrait comprendre. Cet ensemble de données, appelé TinyStories, a ensuite été utilisé pour former un LLM simple capable de produire des histoires fluides et grammaticalement correctes. L’autre papier ont montré que l’IA pouvait être entraînée sur du code Python synthétique sous la forme de manuels et d’exercices, qui, selon eux, fonctionnaient relativement bien sur les tâches de codage.
Des start-up telles que Scale AI et Gretel.ai ont vu le jour pour fournir des données synthétiques en tant que service. Gretel, créée par d’anciens analystes du renseignement américain de la National Security Agency et de la CIA, travaille avec des entreprises telles que Google, HSBC, Riot Games et Illumina pour augmenter leurs données existantes avec des versions synthétiques qui peuvent aider à former de meilleurs modèles d’IA.
L’élément clé des données synthétiques, selon le directeur général de Gretel, Ali Golshan, est qu’elles préservent la confidentialité de tous les individus dans un ensemble de données, tout en maintenant leur intégrité statistique.
Des données synthétiques bien conçues peuvent également éliminer les biais et les déséquilibres dans les données existantes, a-t-il ajouté. « Les fonds spéculatifs peuvent examiner les événements du cygne noir et, par exemple, créer une centaine de variantes pour voir si nos modèles se fissurent », a déclaré Golshan. Pour les banques, où la fraude représente généralement moins d’un centième de pour cent du total des données, le logiciel de Gretel peut générer « des milliers de scénarios de cas extrêmes sur la fraude et former [AI] modèles avec elle.
Les critiques soulignent que toutes les données synthétiques ne seront pas soigneusement conservées pour refléter ou améliorer les données du monde réel. Alors que le texte et les images générés par l’IA commencent à remplir Internet, il est probable que les entreprises d’IA qui explorent le Web à la recherche de données de formation finiront inévitablement par utiliser des données brutes produites par des versions primitives de leurs propres modèles – un phénomène connu sous le nom de « dog-fooding ». .
Recherche d’universités telles qu’Oxford et Cambridge, ont récemment averti que la formation de modèles d’IA sur leurs propres sorties brutes, qui peuvent contenir des faussetés ou des fabrications, pourrait corrompre et dégrader la technologie au fil du temps, provoquant des « défauts irréversibles ».
Golshan convient que la formation sur des données synthétiques médiocres pourrait entraver les progrès. « Le contenu sur le Web est de plus en plus généré par l’IA, et je pense que cela conduira à une dégradation au fil du temps [because] Les LLM produisent des connaissances régurgitées, sans aucune nouvelle perspective », a-t-il déclaré.
Malgré ces risques, des chercheurs en IA comme Gomez de Cohere affirment que les données synthétiques ont le potentiel d’accélérer la voie vers des systèmes d’IA superintelligents.
« Ce que vous voulez vraiment, ce sont des modèles capables d’apprendre par eux-mêmes. Vous voulez qu’ils puissent. . . poser leurs propres questions, découvrir de nouvelles vérités et créer leurs propres connaissances », a-t-il déclaré. « C’est le rêve. »