Veri, günümüzün gelişmiş yapay zeka sistemlerinin kalbinde yer alıyor, ancak maliyeti giderek artıyor; bu da onu en zengin teknoloji şirketleri dışında herkesin erişemeyeceği bir hale getiriyor.

Geçen yıl OpenAI araştırmacılarından James Betker bir makale kaleme aldı: kişisel blogunda yayınla üretken yapay zeka modellerinin doğası ve üzerinde eğitildikleri veri kümeleri hakkında. Betker, bir modelin tasarımı, mimarisi veya başka herhangi bir özelliğinin değil, eğitim verilerinin giderek daha karmaşık ve yetenekli yapay zeka sistemlerinin anahtarı olduğunu iddia etti.

Betker, “Aynı veri seti üzerinde yeterince uzun süre eğitim alındığında hemen hemen her model aynı noktaya yaklaşıyor” diye yazdı.

Betker haklı mı? İster bir soruyu yanıtlamak, ister insan eli çizmek, ister gerçekçi bir şehir manzarası oluşturmak olsun, bir modelin neler yapabileceğinin en büyük belirleyicisi eğitim verileri midir?

Kesinlikle makul.

İstatistiksel makineler

Üretken yapay zeka sistemleri temelde olasılıksal modellerdir; devasa bir istatistik yığınıdır. Çok sayıda örneğe dayanarak hangi verinin nereye yerleştirilmesinin en “anlamlı” olduğunu tahmin ederler (örneğin, “piyasaya gidiyorum” cümlesindeki “piyasaya”dan önce “git” kelimesi). O halde, bir modelin ne kadar çok örneği olması gerekiyorsa, bu örnekler üzerinde eğitilen modellerin performansı da o kadar iyi olur gibi görünüyor.

Kâr amacı gütmeyen bir yapay zeka araştırma kuruluşu olan Allen Yapay Zeka Enstitüsü’nde (AI2) kıdemli uygulamalı araştırma bilimcisi Kyle Lo, TechCrunch’a şöyle konuştu: “Performans kazanımları verilerden geliyor gibi görünüyor.” “En azından istikrarlı bir eğitim kurulumuna sahip olduğunuzda .”

Lo, bu yılın başlarında piyasaya sürülen ve mimari olarak çok benzer olmasına rağmen AI2’nin kendi OLMo modelinden daha iyi performans gösteren metin üreten bir model olan Meta’nın Llama 3 örneğini verdi. Llama 3, OLMo’dan önemli ölçüde daha fazla veri üzerinde eğitildi; Lo, bunun birçok popüler AI kıyaslamasındaki üstünlüğünü açıkladığına inanıyor.

(Bugün AI endüstrisinde yaygın olarak kullanılan kriterlerin mutlaka bir modelin performansının en iyi göstergesi olmadığını, ancak bizimki gibi niteliksel testler dışında bunların yapmamız gereken birkaç ölçümden biri olduğunu burada belirteceğim. devam et.)

Bu, katlanarak daha büyük veri kümeleri üzerinde eğitim almanın, katlanarak daha iyi modellere giden kesin bir yol olduğu anlamına gelmiyor. Lo, modellerin “çöp girme, çöp çıkarma” paradigması üzerinde çalıştığını ve bu nedenle veri iyileştirme ve kalitesinin büyük önem taşıdığını, belki de salt nicelikten daha önemli olduğunu belirtiyor.

“Dikkatle tasarlanmış verilere sahip küçük bir modelin, büyük bir modelden daha iyi performans göstermesi mümkündür” diye ekledi. “Örneğin büyük bir model olan Falcon 180B, LMSYS kıyaslamasında 63. sırada yer alırken, çok daha küçük bir model olan Llama 2 13B ise 56. sırada yer alıyor.”

Geçtiğimiz Ekim ayında TechCrunch ile yapılan bir röportajda OpenAI araştırmacısı Gabriel Goh, yüksek kaliteli ek açıklamaların, OpenAI’nin metinden resme modeli olan DALL-E 3’teki gelişmiş görüntü kalitesine önceki DALL-E 2’ye göre çok büyük katkı sağladığını söyledi. Gelişmelerin ana kaynağı bu” dedi. “Metin açıklamaları eskisinden çok daha iyi [with DALL-E 2] – karşılaştırılamaz bile.

DALL-E 3 ve DALL-E 2 de dahil olmak üzere pek çok yapay zeka modeli, insan açıklamacıların verileri etiketlemesiyle eğitilir; böylece bir model, bu etiketleri söz konusu verilerin gözlemlenen diğer özellikleriyle ilişkilendirmeyi öğrenebilir. Örneğin, her cins için açıklamalarla birlikte çok sayıda kedi resmiyle beslenen bir model, sonunda aşağıdaki gibi terimleri ilişkilendirmeyi “öğrenecektir”: kısa kuyruk Ve kısa saç kendine özgü görsel özellikleriyle

Kötü davranış

Lo gibi uzmanlar, büyük, yüksek kaliteli eğitim veri kümelerine artan vurgunun, yapay zeka gelişimini, bu kümeleri satın almaya gücü yeten milyar dolarlık bütçelere sahip birkaç oyuncuya merkezileştirmesinden endişe ediyor. Büyük yenilik sentetik veriler veya temel mimari statükoyu bozabilir, ancak ikisi de ufukta görünmüyor.

Lo, “Genel olarak, yapay zeka gelişimi için potansiyel olarak yararlı olan içeriği yöneten kuruluşlar, materyallerini kilitlemeye teşvik ediliyor” dedi. “Ve verilere erişim sona ererken, veri toplama ve merdiveni yukarı çekme konusunda ilk hamleyi yapan birkaç kişiyi temel olarak destekliyoruz, böylece başka hiç kimse yetişebilmek için verilere erişemeyecektir.”

Aslında, daha fazla eğitim verisi toplama yarışı, telif hakkıyla korunan içeriğin gizlice toplanması gibi etik olmayan (ve hatta belki de yasa dışı) davranışlara yol açmadığı için, teknoloji devlerini veri lisanslamasına harcayacakları büyük ceplerle ödüllendirdi.

OpenAI’ler gibi üretken yapay zeka modelleri çoğunlukla halka açık web sayfalarından (bunların arasında, bazıları telif hakkıyla korunan) resimler, metin, ses, videolar ve diğer veriler üzerinde eğitilir. sorunlu bir şekilde, AI tarafından oluşturulanlar). Dünyadaki OpenAI’ler, adil kullanımın kendilerini yasal misillemelerden koruduğunu iddia ediyor. Pek çok hak sahibi bu görüşe katılmıyor ancak en azından şimdilik bu uygulamayı önlemek için fazla bir şey yapamıyorlar.

Modellerini eğitmek için şüpheli yöntemlerle devasa veri kümeleri elde eden üretken yapay zeka satıcılarının pek çok örneği var. OpenAI bildirildiğine göre amiral gemisi modeli GPT-4’ü beslemek için YouTube’un onayı olmadan veya içerik oluşturucuların onayı olmadan bir milyon saatten fazla YouTube videosunu yazıya geçirdi. Google yakın zamanda halka açık Google Dokümanlarına, Google Haritalar’daki restoran incelemelerine ve AI ürünlerine ilişkin diğer çevrimiçi materyallere erişebilmek için hizmet şartlarını kısmen genişletti. Ve Meta’nın dava riskine girmeyi düşündüğü söyleniyor modellerini eğitmek IP korumalı içerik hakkında.

Bu arada, büyük ve küçük şirketler şunlara güveniyor: üçüncü dünya ülkelerindeki işçiler saat başına yalnızca birkaç dolar ödüyordu eğitim setleri için ek açıklamalar oluşturmak. Bu ek açıklamacılardan bazıları – istihdam edilenler devasa girişimler Scale AI gibi — kendilerini şiddet ve kan dökülmesinin grafiksel tasvirlerine maruz bırakan görevleri tamamlamak için, herhangi bir fayda veya gelecekteki iş garantisi olmadan günlerce çalışın.

Artan maliyet

Başka bir deyişle, daha üst düzey veri anlaşmaları bile tam olarak açık ve eşitlikçi, üretken bir yapay zeka ekosistemini teşvik etmiyor.

OpenAI, yapay zeka modellerini eğitmek için haber yayıncılarından, stok medya kütüphanelerinden ve daha fazlasından içerik lisanslamak için yüz milyonlarca dolar harcadı; bu, çoğu akademik araştırma grubunun, kar amacı gütmeyen kuruluşun ve yeni kurulan girişimin bütçesinin çok ötesinde bir bütçe. Meta, e-kitap alıntılarının hakları için yayıncı Simon & Schuster’ı satın almayı değerlendirecek kadar ileri gitti (nihai olarak Simon & Schuster, 2023’te özel sermaye şirketi KKR’ye 1,62 milyar dolara satıldı).

AI eğitim verileri pazarının artması bekleniyor büyümek Şu anda kabaca 2,5 milyar dolardan on yıl içinde 30 milyar dolara yaklaşan veri komisyoncuları ve platformlar, bazı durumlarda kullanıcı tabanlarının itirazlarına rağmen yüksek dolar almak için acele ediyor.

Shutterstock’un sahip olduğu stok medya kütüphanesi mürekkepli Reddit, lisans verilerinden Google ve OpenAI gibi kuruluşlara kadar yüz milyonlarca dolar kazandığını iddia ederken, AI satıcılarıyla 25 milyon ila 50 milyon dolar arasında anlaşmalar yapıyor. Yıllar boyunca organik olarak biriken bol miktarda veriye sahip az sayıda platform yapmadım Görünen o ki, üretken yapay zeka geliştiricileriyle Photobucket’ten Tumblr’a ve Soru-Cevap sitesi Stack Overflow’a kadar anlaşmalar imzalanmış.

En azından hangi yasal argümana inandığınıza bağlı olarak satılacak olan platformların verileridir. Ancak çoğu durumda kullanıcılar kârın bir kuruşunu göremiyor. Ve daha geniş yapay zeka araştırma topluluğuna zarar veriyor.

Lo, “Küçük oyuncular bu veri lisanslarını alamayacak ve bu nedenle yapay zeka modellerini geliştiremeyecek veya inceleyemeyecekler” dedi. “Bunun yapay zeka geliştirme uygulamalarının bağımsız bir şekilde incelenmemesine yol açabileceğinden endişeleniyorum.”

Bağımsız çabalar

Karanlığın içinden bir güneş ışığı görünüyorsa, bu, herkesin üretken bir yapay zeka modelini eğitmek için kullanabileceği devasa veri kümeleri oluşturmaya yönelik, kar amacı gütmeyen birkaç bağımsız çabadır.

2020’de gevşek bir Discord kolektifi olarak başlayan, kar amacı gütmeyen tabandan bir araştırma grubu olan EleutherAI, Toronto Üniversitesi, AI2 ve bağımsız araştırmacılarla birlikte çalışarak, esasen kamuya açık alanlardan alınan milyarlarca metin pasajından oluşan The Pile v2’yi oluşturuyor. .

Nisan ayında, yapay zeka girişimi Hugging Face, Hugging Face’in birçok karşılaştırmada model performansını iyileştirdiğini iddia ettiği, kâr amacı gütmeyen kuruluş Common Crawl tarafından tutulan ve milyarlarca web sayfasından oluşan, adını taşıyan veri kümesi olan Common Crawl’ın filtrelenmiş bir versiyonu olan FineWeb’i piyasaya sürdü.

LAION grubunun görüntü setleri gibi açık eğitim veri setlerini yayınlamaya yönelik birkaç çaba, telif hakkı, veri gizliliği ve diğer sorunlarla karşılaştı. eşit derecede ciddi etik ve yasal zorluklar. Ancak kendini işine adamış veri küratörlerinden bazıları daha iyisini yapma sözü verdiler. Örneğin Pile v2, öncü veri kümesi The Pile’da bulunan sorunlu telif hakkıyla korunan materyali kaldırır.

Sorun, bu açık çabalardan herhangi birinin Büyük Teknolojiye ayak uydurmayı umut edip edemeyeceğidir. Veri toplama ve düzenleme bir kaynak meselesi olarak kaldığı sürece, cevap muhtemelen hayır olacaktır; en azından bazı araştırmalarda çığır açan gelişmeler oyun alanını eşitleyene kadar.



genel-24