Bir yılı aşkın bir planlama ve eğitimden sonra, gönüllülerin önderlik ettiği bir proje, OpenAI’nin GPT-3’ü kadar güçlü olduğunu iddia ettikleri, ancak ücretsiz ve herkesin kullanımına açık (bilgi işlem gücüne sahipse) bir açık kaynak dil modeli üretti. . Bloom olarak adlandırılan model, onu oluşturmak için kullanılan kod ve veri kümeleriyle birlikte açık kaynak olarak mevcuttur. Brooklyn merkezli AI girişimi Hugging Face, herkesin Bloom’u indirmeye gerek kalmadan denemesine izin veren ücretsiz bir web uygulaması yayınladı.

Bloom, büyük doğal dil modellerini araştırma için yaygın olarak kullanılabilir hale getirme hedefiyle uluslararası, topluluk destekli bir proje olan BigScience’ın beynidir. Büyük dil modelleri veya kısaca “LLM’ler”, insan benzeri nüanslarla – az ya da çok – çevirebilir, özetleyebilir ve yazabilir. (GPT-3’e bakın.) Ancak bunları araştırmacıların erişemeyeceği ve Meta, Google ve Microsoft gibi Büyük Teknoloji şirketlerinin sıkı ellerinde tuttuğu için oluşturmak tarihsel olarak maliyetliydi.

Bu, kısmen BigScience’ın çabaları sayesinde nihayet değişiyor. Grubun 1000’den fazla gönüllü araştırmacısı – etikçiler, filozoflar, hukuk alimleri ve yeni başlayanlardan ve büyük teknoloji şirketlerinden mühendisler tarafından desteklenen – OpenAI ve Alphabet’in DeepMind gibi firmalar tarafından yapılan ölçekli LLM’lere rakip olan Bloom için aylarca çalıştı. Birden çok dilde çalışan en büyük açık kaynak modellerinden biri olan Bloom, tarihi metinlerden bilgi çıkarmak gibi bir dizi araştırma uygulamasında uygulanmak üzere tasarlanmıştır.

Bloom, 46 doğal dilde ve lehçede ve 13 programlama dilinde metin üretebiliyor”, ”, piyasaya sürülmeden önce TechCrunch ile paylaşılan bir blog gönderisini okuyor. “Bu belirli görevlerden herhangi biri hakkında hiçbir zaman eğitim almamış olmasına rağmen, Bloom’dan metin özetleri veya çevirileri üretmesi, talimatlardan kod çıkarması ve yemek tarifleri yazma, bir haber makalesinden bilgi çıkarma veya beste oluşturma gibi orijinal görevleri yerine getirmek için komutları izlemesi istenebilir. yeni tanımlanmış bir kelimeyi kullanan cümleler… Bloom’un performansı, atölye denemeler yapmaya ve Bloom’un üzerinde ilerlemeye devam ettikçe gelişmeye devam edecek.”

BigScience’ın destekçileri ayrıca Bloom’un önyargı ve toksisite de dahil olmak üzere tüm LLM’leri rahatsız eden sorunlarla mücadele etme yollarına yönelik yeni araştırmaları teşvik edeceğini umuyor. LLM’lerin eğilimi vardır yalanlar tükürmek ve dinlere, cinsiyetlere, ırklara ve ırklara karşı önyargılar sergilemek engelli insanlar. Ayrıca yazmanın temel ilkeleriyle de mücadele ederler, çoğu zaman bir konuşmanın konusunu konuşmadan değiştirirler ve kendilerini durmadan tekrar ederler – hatta çelişirler.

“[Bloom] You.com’un CEO’su ve Salesforce’un eski baş bilim adamı Richard Socher, TechCrunch’a e-posta yoluyla söyledi. Socher, BigScience ile ilgilenmiyor. “Ayrıca, AI’da hiçbir kuruluşun çok uzun süre büyük bir avantajı olmadığını gösteriyor. Bir kuruluş bir şeyin yapılabilir olduğunu gösterdiğinde, aynı yetenekler altı ila 12 ay sonra başka yerlerde de ortaya çıkacaktır.”

Mütevazi başlangıçlar

BigScience’ın kökenleri, yıllar önce Hugging Face baş bilim sorumlusu Thomas Wolf, GENCİ’ler Stephane Requena ve İDRİS‘ Pierre-François Lavallée. Kurucular, yalnızca son yıllarda araştırma topluluğunun artan ilgisini çeken AI’nın sosyal etkisini keşfetmek için yazılım, veri kümeleri, LLM’ler ve araçlar oluşturmayı hayal ettiler.

Kısa süre sonra, 60’tan fazla ülke ve 250 kurumdan gelen BigScience üyelerine bilimsel ve genel tavsiyeler vermek, ortak görevler tasarlamak ve atölye çalışmaları, hackathonlar ve halka açık etkinlikler düzenlemek için yönlendirme komiteleri kuruldu. Farklı çalışma grupları, veri yönetişimi, matematikte teoremleri kanıtlama ve arşiv stratejilerinin yanı sıra mahremiyet ve bilgilendirilmiş rıza ve diğer yasal konular gibi zorluklarla mücadele etmekle görevlendirildi.

Bloom, çalışmalarının toplamıdır. Dünyanın en güçlü makineleri arasında yer alan Fransa, Paris yakınlarında bulunan Jean Zay süper bilgisayarında 7 milyon dolar değerinde kamu tarafından finanse edilen (hibeler yoluyla) hesaplama süresi kullanılarak eğitildi.

A güçlü tartışma devam eden içinde akademik çevreler AI eğitiminin karbon etkisi hakkında; veri merkezleri özellikle çevre dostu değildir. Ancak BigScience, Jean Zay’in benzersiz soğutma sistemi ve nükleer güç kaynağı sayesinde Bloom’u Paris-New York uçuşuna eşdeğer bir karbon ayak izi ile eğitebildiğini söylüyor.

Tüm dil modelleri gibi, Bloom da esasen kelimeleri tahmin etmek için istatistiksel bir araçtır. 1,6 terabaytlık eğitim veri setinden çok sayıda örnekle beslenen Bloom, çevreleyen metnin anlamsal bağlamı da dahil olmak üzere kalıplara dayalı olarak kelimelerin ne kadar olası olduğunu öğrendi. Örneğin, “İleriye bakmak…” parçasıyla biten tipik bir e-posta verildiğinde, Bloom bunu “… geri duymak” ile tamamlayabilir.

BigScience çalışma gruplarının bir amacı, Bloom’u eğitmek için yeterince temsili olan verileri toplamaktı. Kamuya açık veri kaynaklarındaki sistematik önyargılar nedeniyle, İngilizce olmayan LLM’ler geleneksel olarak İngilizce’deki muadilleri kadar iyi performans göstermemiştir. Kitaplardan, akademik yayınlardan, radyo yazılarından, podcast’lerden ve web sitelerinden yararlanan Bloom’u eğitmek için kullanılan 341 milyar kelimelik veri seti, Swahili, Katalanca, Bengalce ve Vietnamca dahil olmak üzere diller arasında farklı kültürel bağlamları kodlamayı amaçlıyor.

BigScience grupları, Afrika doğal dil işleme topluluğu Masakhane, AI’da LatinX ve Machine Learning Tokyo dahil olmak üzere topluluk gruplarından öneriler isteyerek 500 kaynaktan veri kümesinin yaklaşık üçte ikisini elle seçti. Mahremiyet için redaksiyon yaptılar ve kalite için filtre uyguladılar, örneğin, cinsiyetçi çağrışımlar içerme eğiliminde olan porno sitelerinin aşırı temsil edilmesini azaltmaya çalıştılar.

Bloom tamamen önyargısız değil – hiçbir LLM değil. Ancak umut, eğitim verilerinin şeffaflığını koruyarak, araştırmacıların Bloom’un tahminlerinin ve karar vermenin kökenine inmelerinin daha kolay olacağıdır.

Büyük boy

176 milyar parametrede Bloom, kabaca GPT-3 boyutundadır. Makine öğrenimindeki parametreler, LLM’nin eğitim verilerinden öğrenilen parçalarıdır ve metin oluşturma gibi bir görevde modelin etkinliği ile ilişkili olma eğilimindedir.

Genel olarak konuşursak, daha yüksek parametreli modeller eğitmek için daha fazla işlem gücü gerektirir. 2020 ders çalışma itibaren AI21 Laboratuvarları sadece 1,5 milyar parametreli bir metin oluşturma modeli geliştirmenin masraflarını 1,6 milyon $’a sabitledi; Bloom, üç ay boyunca 384 Nvidia A100 GPU üzerinde eğitim aldı. Bu gerçek, topluluğun Microsoft’un ve Nvidia’nın 530 milyar parametreye sahip Megatron-Turing Doğal Dil Üretimi (MT-NLG) gibi büyük, son teknoloji dil modellerini kullanmasını zorlaştırdı.

BigScience r olduğunu iddia ediyorAraştırmacılar, bir bulut sağlayıcısında Bloom’u saatte 40 dolardan daha az bir ücretle kullanma olanağına sahip olacaklar. AncakBu erişim engelini bile kaldırmayı hedefleyen kuruluş, Bloom’un daha küçük, daha az donanım yoğun sürümlerini yayınlamayı planlıyor ve laboratuvarların modeli sunucuları arasında paylaşmasına izin verecek dağıtılmış bir sistem geliştiriyor. Çalışmalarda bir API de var.

Bloom, geniş ticari ve araştırma kullanımlarına sahip, gelişmekte olan bir açık kaynak, son derece yetenekli LLM’ler ekosistemine katılıyor. Şubat ayında, açık AI araştırma grubu EleutherAI, o sırada diğer genel dil modellerini çeşitli kriterlerde geride bırakan GPT-NeoX-20B’yi piyasaya sürdü. Aylar sonra, şirketin AI topluluğuna sunulan ilk 175 milyar parametreli dil modeli olduğunu iddia ettiği Meta açık kaynaklı OPT-175B.

İyi bir şekilde kullanıldılar – işletmeler zaten çoğaldığını EleutherAI’nin modelleri etrafında. Ancak bazı araştırmacılar istismardan korkuyor. Maryland Üniversitesi’nde araştırmacılar, LLM’lerin yanlış haberler ve siber güvenlik raporları oluşturmasının mümkün olduğunu keşfetti. inandırıcı uzmanları kandırmak için yeterli. Bir diğer kağıt Meta’daki araştırmacılar tarafından ortaklaşa yazılan kitap, özellikle tıbbi veya psikolojik tahminler olmak üzere kötü tavsiyeler veren LLM’lerden kaynaklanabilecek potansiyel zararı araştırıyor.

OpenAI gibi bir API aracılığıyla LLM’lere erişim sunan birçok şirket, sorunlu metinleri ayıklamak için filtreler uygular. Ancak açık kaynaklı modellerin açıkça böyle bir koruması yoktur.

Kötüye kullanım potansiyelinin farkında olarak Bloom, yeteneklerini ve sınırlamalarını özetleyen belgelerle birlikte gelir. Bunu kullanmak, araştırmacıların modeli kötü niyetli amaçlar için kullanmamalarını taahhüt eden yasal bir lisansı kabul etmeyi gerektirir. BigScience, modelin nasıl uygulandığını izlemeyi ve lisansı ve belgeleri gerektiği gibi ayarlamayı planlıyor.

Blog yazısı şöyle devam ediyor: “Daha fazla dil eklemeyi, aynı performans düzeyinde kullanımı daha kolay hale getirmek için modeli küçültmeyi planladık ve topluluğun bunu genişletme çabalarını destekleyeceğiz” diye devam ediyor. “Bloom, tek ve bitmiş bir model değil, büyüyecek yaşayan bir model ailesidir.”



genel-24