Microsoft ve Open AI, aksi takdirde yeniden eğitilmesi çok pahalı olan devasa AI modellerinde ince ayar yapmak için yeni bir yöntem geliştirdi. GPT-3.
A Blog yazısı Microsoft Research tarafından yayınlanan, optimizasyon yapmak için gereken hesaplama kaynaklarının miktarını en aza indirmek için küçük ve büyük ölçekli yapay zeka modellerinin davranışları arasındaki benzerliklerin keşfedilmesine dayanan µ-Parametriizasyon (veya µP) adı verilen bir tekniği açıklar.
Spesifikleri anlamak için doktoraya ihtiyacınız olsa da, temel mesaj şudur: µ-Parametriizasyon ile, bugün mevcut olanlardan çok daha üstün performans sağlayabilen daha büyük ölçekli AI modelleri geliştirmek daha ucuz ve daha basit olacaktır.
AI modellerini optimize etme
Blog gönderisinde açıklandığı gibi, büyük AI modellerinin etkili bir şekilde eğitilmesinin zor olmasının bir nedeni, ölçeklendikçe davranışlarının nasıl değiştiğine dair çok az fikir sahibi olmamızdır. Bu nedenle, AI modeli ne kadar büyük olursa, şu anda daha az iyi ayarlanmış araştırmacılar olmasını bekleyecektir.
Bununla birlikte, µ-Parametreleştirme, farklı boyutlardaki sinir ağlarının bazı koşullarda aynı optimal hiperparametreleri (HP’ler) paylaştığı anlayışından yararlanarak, büyük ölçekli modelleri çok daha düşük maliyetlerle ve çok daha fazla verimlilikle ayarlamak için bir yol sunar.
Esasen bu, multi-milyar parametreli bir modelin tamamını sıfırdan yeniden eğitmek yerine, küçük ölçekli bir ayarlama sürecinin dışa doğru tahmin edilebileceği ve çok daha büyük bir modele eşlenebileceği anlamına gelir.
“µP’nin modeli parametreleştirme ve öğrenme oranını seçme konusundaki ilkeli yolu, herkesin derin sinir ağlarının eğitimini ölçeklendirmesini kolaylaştırıyor. Güzel teori ve pratik etkinin böylesine zarif bir birleşimi,” dedi Microsoft Research Laboratuvar Direktörü Johannes Gehrke.
Teoriyi uygulamaya koymak için Microsoft, en büyük yinelemesi 175 milyar parametreden oluşan bir doğal dil modeli olan GPT-3’te µ-Parametriizasyonunu serbest bırakmak için OpenAI ile birlikte çalıştı.
Microsoft, “GPT-3’ün bir sürümünü µP’de göreceli dikkatle parametreleştirdikten sonra, en iyi hiper parametre kombinasyonunu GPT-3’ün 6,7 milyar parametre varyantına kopyalamadan önce 40 milyon parametreli küçük bir proxy modelini ayarladık” dedi.
Sonuçlar oldukça şaşırtıcıydı; ortak çalışanlar, 6,7 milyar parametre modelinin ön eğitiminde tüketilen hesaplama gücünün yalnızca %7’sini kullanarak GPT-3’ün daha da performanslı bir sürümünü oluşturmayı başardılar.
Diğer uygulayıcıların bu bulgulardan yararlanmasına yardımcı olmak için Microsoft, bir PyTorch paketi µ-Parametriizasyonunu mevcut modellerine entegre etmeye yardımcı olmak için tasarlanmıştır, ki bu pratikte sözde titiz olabilir.
Şirket ayrıca, AI modellerinin ölçeklendirilmesi hakkında henüz anlaşılmayan çok şey olduğunu ve “büyük ölçekli makine öğrenimi için daha ilkeli yaklaşımlar türetme” çalışmalarına devam etme sözü verdiğini söyledi.