{"id":1691850,"date":"2025-06-07T09:34:32","date_gmt":"2025-06-07T06:34:32","guid":{"rendered":"https:\/\/teknomers.com\/fr\/eleutherai-publie-un-immense-ensemble-de-donnees-dentrainement-en-ia-compose-de-textes-sous-licence-et-de-domaine-public\/"},"modified":"2025-06-07T09:34:37","modified_gmt":"2025-06-07T06:34:37","slug":"eleutherai-publie-un-immense-ensemble-de-donnees-dentrainement-en-ia-compose-de-textes-sous-licence-et-de-domaine-public","status":"publish","type":"post","link":"https:\/\/teknomers.com\/fr\/eleutherai-publie-un-immense-ensemble-de-donnees-dentrainement-en-ia-compose-de-textes-sous-licence-et-de-domaine-public\/","title":{"rendered":"EleutherAI publie un immense ensemble de donn\u00e9es d&#8217;entra\u00eenement en IA compos\u00e9 de textes sous licence et de domaine public."},"content":{"rendered":"\n<h2>Introduction \u00e0 l&#8217;initiative d\u2019EleutherAI<\/h2>\n<p>La <strong>recherche en intelligence artificielle (IA)<\/strong> \u00e9volue \u00e0 un rythme effr\u00e9n\u00e9, suscitant \u00e0 la fois de l&#8217;enthousiasme et des pr\u00e9occupations \u00e9thiques. R\u00e9cemment, l&#8217;organisation de recherche <strong>EleutherAI<\/strong> a lanc\u00e9 une belle initiative en publiant un ensemble de donn\u00e9es qu&#8217;elle qualifie de l&#8217;une des plus grandes collections <strong>licenci\u00e9es et de domaine ouvert<\/strong> pour l&#8217;entra\u00eenement de mod\u00e8les d&#8217;IA. Ce jeu de donn\u00e9es, intitul\u00e9 <strong>Common Pile v0.1<\/strong>, p\u00e8se environ 8 to et a \u00e9t\u00e9 d\u00e9velopp\u00e9 pendant environ deux ans en collaboration avec des start-ups d\u2019IA telles que <strong>Poolside<\/strong> et <strong>Hugging Face<\/strong>, ainsi que plusieurs institutions acad\u00e9miques.<\/p>\n<h2>Composition et impact du Common Pile v0.1<\/h2>\n<p>Le <strong>Common Pile v0.1<\/strong> a \u00e9t\u00e9 con\u00e7u pour \u00eatre utilis\u00e9 afin de former deux nouveaux mod\u00e8les d&#8217;IA d&#8217;EleutherAI, \u00e0 savoir <strong>Comma v0.1-1T<\/strong> et <strong>Comma v0.1-2T<\/strong>. Ces mod\u00e8les sont pr\u00e9sent\u00e9s comme \u00e9tant \u00e0 la hauteur des mod\u00e8les d\u00e9velopp\u00e9s \u00e0 partir de donn\u00e9es <strong>non licenci\u00e9es<\/strong> et soumises au <strong>droit d&#8217;auteur<\/strong>. Dans un contexte o\u00f9 de nombreuses entreprises de l&#8217;IA, y compris <strong>OpenAI<\/strong>, se retrouvent dans des batailles judiciaires concernant leurs pratiques d&#8217;entra\u00eenement des IA, l&#8217;initiative d\u2019EleutherAI prend une dimension particuli\u00e8rement significative.<\/p>\n<h2>Enjeux juridiques et transparence<\/h2>\n<p>Les entreprises d&#8217;IA sont actuellement <strong>embarqu\u00e9es dans des poursuites judiciaires<\/strong> relatives \u00e0 leurs m\u00e9thodes d&#8217;entra\u00eenement, qui s&#8217;appuient souvent sur des <strong>donn\u00e9es extraites d&#8217;Internet<\/strong>, y compris des <strong>ouvrages prot\u00e9g\u00e9s par le droit d&#8217;auteur<\/strong>. Bien que certaines entreprises aient \u00e9tabli des arrangements de licence avec certains fournisseurs de contenu, la plupart soutiennent que la <strong>doctrine am\u00e9ricaine de l&#8217;utilisation \u00e9quitable<\/strong> les prot\u00e8ge de responsabilit\u00e9s en cas d&#8217;utilisation de travaux prot\u00e9g\u00e9s sans autorisation.<\/p>\n<p>EleutherAI, quant \u00e0 elle, a exprim\u00e9 ses pr\u00e9occupations quant \u00e0 ces poursuites. Selon <strong>Stella Biderman<\/strong>, directrice ex\u00e9cutive d&#8217;EleutherAI, ces litiges ont \u00ab <strong>drastiquement diminu\u00e9<\/strong> \u00bb la transparence des pratiques des entreprises d&#8217;IA. Cette situation a des r\u00e9percussions sur le domaine de la recherche en IA, rendant plus difficile la compr\u00e9hension du fonctionnement des mod\u00e8les d&#8217;IA et de leurs d\u00e9fauts.<\/p>\n<h2>S\u00e9lection et pr\u00e9paration des donn\u00e9es<\/h2>\n<p>Le <strong>Common Pile v0.1<\/strong>, disponible au t\u00e9l\u00e9chargement sur la plateforme de d\u00e9veloppement AI de Hugging Face et sur GitHub, a \u00e9t\u00e9 \u00e9labor\u00e9 en consultation avec des experts juridiques. Il s&#8217;appuie sur des sources telles que <strong>300 000 livres du domaine public<\/strong> num\u00e9ris\u00e9s par la <strong>Biblioth\u00e8que du Congr\u00e8s<\/strong> et l&#8217;<strong>Internet Archive<\/strong>. De plus, EleutherAI a utilis\u00e9 <strong>Whisper<\/strong>, le mod\u00e8le de transcription audio \u00e0 texte en open source d&#8217;OpenAI, pour traiter certains contenus audio.<\/p>\n<p>Cette approche m\u00e9thodique permet non seulement de respecter les lois sur le droit d&#8217;auteur, mais aussi d&#8217;ouvrir la voie \u00e0 une recherche plus <strong>transparente<\/strong> et <strong>\u00e9thique<\/strong> dans le domaine de l\u2019IA.<\/p>\n<h2>Une \u00e9volution vers des mod\u00e8les plus \u00e9thiques<\/h2>\n<p>EleutherAI affirme que les mod\u00e8les <strong>Comma v0.1-1T<\/strong> et <strong>Comma v0.1-2T<\/strong> illustrent que le <strong>Common Pile v0.1<\/strong> a \u00e9t\u00e9 soigneusement \u00e9labor\u00e9 pour permettre aux d\u00e9veloppeurs de cr\u00e9er des mod\u00e8les <strong>comp\u00e9titifs<\/strong> avec les alternatives <strong>propri\u00e9taires<\/strong>. Ces mod\u00e8les, dot\u00e9s de <strong>7 milliards de param\u00e8tres<\/strong>, rivalisent d\u00e9j\u00e0 avec le premier mod\u00e8le Llama de <strong>Meta<\/strong> sur des benchmarks indiquant des capacit\u00e9s en <strong>programmation<\/strong>, <strong>compr\u00e9hension d&#8217;images<\/strong> et <strong>math\u00e9matiques<\/strong>.<\/p>\n<p>Les <strong>param\u00e8tres<\/strong>, parfois appel\u00e9s <strong>poids<\/strong>, sont des composants internes d&#8217;un mod\u00e8le d\u2019IA qui dirigent son comportement et ses r\u00e9ponses. Biderman souligne que l&#8217;id\u00e9e commune selon laquelle les textes non licenci\u00e9s sont n\u00e9cessaires pour obtenir de bonnes performances est largement injustifi\u00e9e. Au fur et \u00e0 mesure que la quantit\u00e9 de donn\u00e9es accessibles <strong>licenci\u00e9es ouvertement<\/strong> et de <strong>domaine public<\/strong> augmente, on peut s\u2019attendre \u00e0 une <strong>am\u00e9lioration de la qualit\u00e9<\/strong> de mod\u00e8les form\u00e9s sur ces contenus.<\/p>\n<h2>R\u00e9tablissement d&#8217;une r\u00e9putation<\/h2>\n<p>Le d\u00e9veloppement du <strong>Common Pile v0.1<\/strong> repr\u00e9sente \u00e9galement un effort pour corriger les erreurs pass\u00e9es d&#8217;EleutherAI. En effet, l\u2019organisation avait pr\u00e9c\u00e9demment publi\u00e9 <strong>The Pile<\/strong>, une collection ouverte de textes d&#8217;entra\u00eenement qui incluait de la mati\u00e8re prot\u00e9g\u00e9e. Ce projet avait attir\u00e9 des critiques et des pressions juridiques sur les entreprises d&#8217;IA qui utilisaient <strong>The Pile<\/strong> pour entra\u00eener leurs mod\u00e8les.<\/p>\n<p>EleutherAI s&#8217;engage \u00e0 publier des <strong>datasets ouverts<\/strong> plus fr\u00e9quemment \u00e0 l&#8217;avenir, en collaboration avec ses partenaires de recherche et d&#8217;infrastructure. En clarifiant ces efforts, Biderman a pr\u00e9cis\u00e9 que la cr\u00e9ation de ces datasets et mod\u00e8les a impliqu\u00e9 un grand nombre de partenaires, y compris l&#8217;<strong>Universit\u00e9 de Toronto<\/strong>, qui a jou\u00e9 un r\u00f4le central dans la recherche.<\/p>\n<p>Cette initiative repr\u00e9sente un pas significatif vers la cr\u00e9ation d\u2019un \u00e9cosyst\u00e8me IA plus <strong>transparent<\/strong> et <strong>\u00e9thique<\/strong>, en permettant \u00e0 la recherche d&#8217;avancer tout en respectant les droits des auteurs et des cr\u00e9ateurs. Les acteurs de l&#8217;IA ont ainsi l&#8217;occasion d&#8217;apprendre des pratiques adopt\u00e9es, transformant le paysage du d\u00e9veloppement technologique pour un meilleur avenir.<\/p>\n<p><br \/>\n<br \/><a href=\"https:\/\/teknomers.com\/fr\/category\/finance\/\" rel=\"dofollow\">Finance<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introduction \u00e0 l&#8217;initiative d\u2019EleutherAI La recherche en intelligence artificielle (IA) \u00e9volue \u00e0 un rythme effr\u00e9n\u00e9, suscitant \u00e0 la fois de l&#8217;enthousiasme et des pr\u00e9occupations \u00e9thiques. R\u00e9cemment, l&#8217;organisation de recherche EleutherAI a lanc\u00e9 une belle initiative en publiant un ensemble de donn\u00e9es qu&#8217;elle qualifie de l&#8217;une des plus grandes collections licenci\u00e9es et de domaine ouvert pour [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1691851,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7],"tags":[],"class_list":["post-1691850","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-finance"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/posts\/1691850","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/comments?post=1691850"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/posts\/1691850\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/media\/1691851"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/media?parent=1691850"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/categories?post=1691850"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/fr\/wp-json\/wp\/v2\/tags?post=1691850"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}