Introduction à l’initiative d’EleutherAI
La recherche en intelligence artificielle (IA) évolue à un rythme effréné, suscitant à la fois de l’enthousiasme et des préoccupations éthiques. Récemment, l’organisation de recherche EleutherAI a lancé une belle initiative en publiant un ensemble de données qu’elle qualifie de l’une des plus grandes collections licenciées et de domaine ouvert pour l’entraînement de modèles d’IA. Ce jeu de données, intitulé Common Pile v0.1, pèse environ 8 to et a été développé pendant environ deux ans en collaboration avec des start-ups d’IA telles que Poolside et Hugging Face, ainsi que plusieurs institutions académiques.
Composition et impact du Common Pile v0.1
Le Common Pile v0.1 a été conçu pour être utilisé afin de former deux nouveaux modèles d’IA d’EleutherAI, à savoir Comma v0.1-1T et Comma v0.1-2T. Ces modèles sont présentés comme étant à la hauteur des modèles développés à partir de données non licenciées et soumises au droit d’auteur. Dans un contexte où de nombreuses entreprises de l’IA, y compris OpenAI, se retrouvent dans des batailles judiciaires concernant leurs pratiques d’entraînement des IA, l’initiative d’EleutherAI prend une dimension particulièrement significative.
Enjeux juridiques et transparence
Les entreprises d’IA sont actuellement embarquées dans des poursuites judiciaires relatives à leurs méthodes d’entraînement, qui s’appuient souvent sur des données extraites d’Internet, y compris des ouvrages protégés par le droit d’auteur. Bien que certaines entreprises aient établi des arrangements de licence avec certains fournisseurs de contenu, la plupart soutiennent que la doctrine américaine de l’utilisation équitable les protège de responsabilités en cas d’utilisation de travaux protégés sans autorisation.
EleutherAI, quant à elle, a exprimé ses préoccupations quant à ces poursuites. Selon Stella Biderman, directrice exécutive d’EleutherAI, ces litiges ont « drastiquement diminué » la transparence des pratiques des entreprises d’IA. Cette situation a des répercussions sur le domaine de la recherche en IA, rendant plus difficile la compréhension du fonctionnement des modèles d’IA et de leurs défauts.
Sélection et préparation des données
Le Common Pile v0.1, disponible au téléchargement sur la plateforme de développement AI de Hugging Face et sur GitHub, a été élaboré en consultation avec des experts juridiques. Il s’appuie sur des sources telles que 300 000 livres du domaine public numérisés par la Bibliothèque du Congrès et l’Internet Archive. De plus, EleutherAI a utilisé Whisper, le modèle de transcription audio à texte en open source d’OpenAI, pour traiter certains contenus audio.
Cette approche méthodique permet non seulement de respecter les lois sur le droit d’auteur, mais aussi d’ouvrir la voie à une recherche plus transparente et éthique dans le domaine de l’IA.
Une évolution vers des modèles plus éthiques
EleutherAI affirme que les modèles Comma v0.1-1T et Comma v0.1-2T illustrent que le Common Pile v0.1 a été soigneusement élaboré pour permettre aux développeurs de créer des modèles compétitifs avec les alternatives propriétaires. Ces modèles, dotés de 7 milliards de paramètres, rivalisent déjà avec le premier modèle Llama de Meta sur des benchmarks indiquant des capacités en programmation, compréhension d’images et mathématiques.
Les paramètres, parfois appelés poids, sont des composants internes d’un modèle d’IA qui dirigent son comportement et ses réponses. Biderman souligne que l’idée commune selon laquelle les textes non licenciés sont nécessaires pour obtenir de bonnes performances est largement injustifiée. Au fur et à mesure que la quantité de données accessibles licenciées ouvertement et de domaine public augmente, on peut s’attendre à une amélioration de la qualité de modèles formés sur ces contenus.
Rétablissement d’une réputation
Le développement du Common Pile v0.1 représente également un effort pour corriger les erreurs passées d’EleutherAI. En effet, l’organisation avait précédemment publié The Pile, une collection ouverte de textes d’entraînement qui incluait de la matière protégée. Ce projet avait attiré des critiques et des pressions juridiques sur les entreprises d’IA qui utilisaient The Pile pour entraîner leurs modèles.
EleutherAI s’engage à publier des datasets ouverts plus fréquemment à l’avenir, en collaboration avec ses partenaires de recherche et d’infrastructure. En clarifiant ces efforts, Biderman a précisé que la création de ces datasets et modèles a impliqué un grand nombre de partenaires, y compris l’Université de Toronto, qui a joué un rôle central dans la recherche.
Cette initiative représente un pas significatif vers la création d’un écosystème IA plus transparent et éthique, en permettant à la recherche d’avancer tout en respectant les droits des auteurs et des créateurs. Les acteurs de l’IA ont ainsi l’occasion d’apprendre des pratiques adoptées, transformant le paysage du développement technologique pour un meilleur avenir.

