Google’ın AI araştırma laboratuvarı olan Google DeepMind, hem eğitim hızını hem de enerji verimliliğini büyük ölçüde artırdığını, diğer yöntemlere göre 13 kat daha fazla performans ve on kat daha yüksek güç verimliliği sağladığını iddia eden AI modellerini eğitme üzerine yeni bir araştırma yayınladı. Yeni JEST eğitim yöntemi, AI veri merkezlerinin çevresel etkisi hakkındaki konuşmaların kızıştığı bir zamanda geldi.
DeepMind’ın JEST veya birleşik örnek seçimi olarak adlandırılan yöntemi, geleneksel AI modeli eğitim tekniklerinden basit bir şekilde ayrılır. Tipik eğitim yöntemleri, eğitim ve öğrenme için bireysel veri noktalarına odaklanırken, JEST tüm gruplara dayalı eğitim verir. JEST yöntemi, öncelikle son derece yüksek kaliteli kaynaklardan gelen veri kalitesini derecelendirecek ve grupları kaliteye göre sıralayacak daha küçük bir AI modeli oluşturur. Daha sonra bu derecelendirmeyi daha büyük, daha düşük kaliteli bir kümeyle karşılaştırır. Küçük JEST modeli, eğitim için en uygun grupları belirler ve daha sonra daha küçük modelin bulgularından büyük bir model eğitilir.
Kağıdın kendisi, burada mevcutturçalışmada kullanılan süreçler ve araştırmanın geleceği hakkında daha kapsamlı bir açıklama sunmaktadır.
DeepMind araştırmacıları makalelerinde, “veri seçimi sürecini daha küçük, iyi düzenlenmiş veri kümelerinin dağıtımına yönlendirme yeteneğinin” JEST yönteminin başarısı için elzem olduğunu açıkça ortaya koyuyor. Başarı, bu araştırma için doğru kelime; DeepMind, “yaklaşımımızın 13 kata kadar daha az yineleme ve 10 kata kadar daha az hesaplama ile en son teknoloji modellerini geride bıraktığını” iddia ediyor.

Elbette, bu sistem tamamen eğitim verilerinin kalitesine dayanır, çünkü önyükleme tekniği mümkün olan en yüksek kalitede insan tarafından düzenlenmiş bir veri kümesi olmadan çöker. “Giren çöp, çıkan çöp” mantrası hiçbir yerde eğitim sürecinde “ileri atlamaya” çalışan bu yöntemden daha doğru değildir. Bu, JEST yönteminin hobiciler veya amatör AI geliştiricileri için diğerlerine göre eşleşmesini çok daha zorlaştırır, çünkü başlangıçtaki en yüksek dereceli eğitim verilerini düzenlemek için uzman düzeyinde araştırma becerileri gerekebilir.
JEST araştırması tam zamanında geldi, çünkü teknoloji endüstrisi ve dünya hükümetleri yapay zekanın aşırı güç talepleri hakkında tartışmalara başlıyor. Yapay zeka iş yükleri 2023’te yaklaşık 4,3 GW tüketti, bu da neredeyse Kıbrıs ulusunun yıllık güç tüketimine eşit. Ve işler kesinlikle yavaşlamıyor: tek bir ChatGPT isteği, güçte bir Google aramasından 10 kat daha pahalıya mal oluyor ve Arm’ın CEO’su, yapay zekanın 2030’a kadar Amerika Birleşik Devletleri’nin güç şebekesinin dörtte birini kaplayacağını tahmin ediyor.
JEST yöntemlerinin AI alanındaki büyük oyuncular tarafından benimsenip benimsenmeyeceği ve nasıl benimseneceği henüz belli değil. GPT-40’ın eğitilmesinin 100 milyon dolara mal olduğu bildiriliyor ve gelecekteki daha büyük modeller yakında milyar dolar sınırına ulaşabilir, bu nedenle firmalar muhtemelen bu bölümde cüzdanlarını kurtarmanın yollarını arıyorlar. Umutlu olanlar, JEST yöntemlerinin mevcut eğitim üretkenlik oranlarını çok daha düşük güç çekişlerinde tutmak, AI maliyetlerini azaltmak ve gezegene yardımcı olmak için kullanılacağını düşünüyor. Ancak, çok daha olası olan, sermaye makinesinin pedalı metale basılı tutması ve JEST yöntemlerini kullanarak hiper hızlı eğitim çıktısı için güç çekişini maksimumda tutmasıdır. Maliyet tasarrufu mu çıktı ölçeği mi, kim kazanacak?

