Büyük dil modellerinin veya üretken yapay zeka modellerinin eğitimi, büyük metin veya görseller kullanılmadan yapılamaz. Bu, özellikle Le Monde ile OpenAI arasında yakın zamanda imzalanan anlaşmanın yanı sıra OpenAI ile New York Times arasındaki anlaşmazlığın da konusu: modelleri eğitmek için kullanılabilecek içeriğe erişim.
Pierre Carl Langlais ve onun girişimi tarafından yönetilen Common Corpus projesi de bu düşünce çerçevesine giriyor. Pleias. Araştırma dünyasından gelen ve bilgi ve iletişim bilimleri alanında uzmanlaşan kendisi, geçmişte telifsiz belgeler konusuyla, örneğin bir dijitalleştirme projesi olan Numapresse projesindeki çalışmasında zaten karşılaşmıştı. yüzyılda içeriklerinin analizini yapmak amacıyla yapılmıştır. Araştırmacıya göre “yapay zekayı onu eğitmek için kullanılan verilerden ayırmak imkansız. Ve bu veri bir kültür.”
Çarşamba günü gündüz yayınlandı HuggingFace platformunda, bu metin külliyatı farklı dillerdeki 500 milyar kelimelik bir hacmi bir araya getiriyor ve tümünün telif hakkı içermediği garanti ediliyor. Pierre Carl Langlais, ZDNET’e şunları söyledi: “Başlangıçta, yaklaşık 80 milyar kelime içeren, tamamı Fransızca olan ilk külliyatı zaten birkaç ay önce yayınlamıştık. Projeye güçlü bir ilgi olduğunu fark ettik ve bu nedenle daha büyük bir şeye geçmek istedik.” .
İyi bir model için doğru veriler
Nihai sonuç tek bir dille sınırlı değildir ve İngilizce için yaklaşık 200 milyar, Fransızca için 100 milyar, Almanca için 30 milyar, Hollandaca ve diğer diller için yaklaşık yirmi milyar kelimeden oluşmaktadır.
Derleme esas olarak, telif hakkıyla ilgili riski mümkün olduğunca sınırlamak için projeyi başlatanlar tarafından seçilip seçilen eski metinlerden oluşuyor: “Çok fazla iş var, ancak biz zaten tarafından yürütülen çalışmaya güvenebiliriz. Bu alanda çok sayıda dijital kütüphane var. Ayrıca İnternet Arşivi gibi projeler tarafından indekslenen verileri de kullandık, ancak örneğin telif hakkına tabi metinleri kullanmaktan kaçınmak için 1884’ten sonra yayınlanan metinlerden kaçındık” diye açıklıyor Pierre Carl Langlais. Nihai sonuç esasen oluşturulmuştur. Uzun metinlerin çoğu zaman PDF biçiminde olması, onu örneğin belge analizi görevleri konusunda bir Yüksek Lisans eğitimi için ideal bir araç haline getirir, ancak aynı zamanda uzun metinlerin üretilmesi de mevcut birçok dil modelinin ele aldığı bir tuzaktır ve hala zorluklar yaşamaktadır.
Bu külliyatın amacı, kendi dil modellerini eğitmek için Common Corpus’a güvenebilecek “alternatif aktörlerin ortaya çıkmasını sağlamak” amacıyla ortak, özgürce paylaşılan bir kaynak haline gelmektir. “İyi bir modelin sırrının, onu eğitmek için kullanılan verilere büyük ölçüde bağlı olduğunu bugün açıkça görebiliyoruz. Ve bugün, derlemlere erişimle ilgili sorular üzerinde pek çok tartışma var ve ana aktörler, modellerini eğitmek için kapalı derlemler kullanıyor Onları neyin oluşturduğunu gerçekten bilmeden” diye özetliyor Pierre Carl Langlais.
Yukarı akış çalışması
Bu ortak külliyatın geliştirilmesi, yalnızca telif hakkı kapsamındaki metinlerin yeniden kullanılmasıyla ilgili hukuki sorunlardan kaçınmayı değil, aynı zamanda modellerin üretimini daha iyi kontrol etmeyi de amaçlamaktadır. “Örneğin, internette yayınlanan veriler üzerinde eğitilen ancak bu nedenle nefret dolu veya pornografik içeriğe maruz kalan birçok model görüyoruz. Bu nedenle ana pazar oyuncuları, oluşturulan metinler üzerinde sonradan kontrol yapmak zorunda kalıyorlar ve “Bu, bana iyi bir yöntem gibi görünmüyor. Modeli eğitmek için kullanılan verilerin kökenini izleyemezsek, modellerin ne üreteceğini kontrol etmek daha da zorlaşır.”
Proje ortak bir proje olmayı hedefliyor, Pierre Carl Langlais doğal olarak yaklaşımla ilgilenen diğer kuruluşları ve bireyleri külliyatın zenginleşmesine katkıda bulunmaya davet ediyor. Araştırmacı, projeye ev sahipliği yapmak için devlet kuruluşu LANGU:IA’nın desteğine ve Scaleway’in yardım eline güvenebildi.
Araştırmacı, diğer Fransız veya yabancı aktörlerle daha geniş bir işbirliğinin ilk taşlarını da atmayı planlıyor: “Zaten HuggingFace gibi kuruluşlarla çalışıyorum. Eleuther, Oksiglot Veya NomicAI. Şu an için resmileştirilmiş hiçbir şey yok, sadece benzer değerleri paylaşıyoruz. Ancak herkes bize katılabilir ve projeyi sağlamayı amaçlayan telif hakkı olmayan yeni metinleri belirlememize yardımcı olabilir” diye açıklıyor Pierre Carl Langlais.