Ocak ayı boyunca Microsoft Araştırma ForumuMicrosoft Research Lab NYC ve AI Frontiers’ta kıdemli araştırmacı olan Dipendra Misra, Katman Seçmeli Sıra Azaltma’nın (veya LAZER) büyük dil modellerini nasıl daha doğru hale getirebileceğini açıkladı.
LAZER ile araştırmacılar “müdahale edebilir” ve bir ağırlık matrisini yaklaşık olarak daha küçük bir matrisle değiştirebilir. Ağırlıklar, modellerin kurduğu bağlamsal bağlantılardır. Ağırlık ne kadar ağır olursa, model ona o kadar çok güvenir. Peki bir şeyin daha fazla korelasyon ve bağlamla değiştirilmesi modelin doğruluğunu azaltır mı? Test sonuçlarına göre cevap şaşırtıcı bir şekilde hayır.
“LLM’de LAZER kullanarak müdahale yapıyoruz, dolayısıyla daha fazla yaklaşım yaptıkça model kaybının artması beklenebilir, bu da modelin kötü performans göstereceği anlamına geliyor, değil mi, çünkü bir LLM’den bilgi atıyoruz. Misra, büyük miktarda veri üzerinde eğitilmiş olduğunu söyledi. “Fakat şaşırtıcı bir şekilde, eğer doğru tip LAZER müdahalesi yapılırsa, model kaybının artmadığını, aslında azaldığını gördük.”
Misra, ekibinin LASER’ı üç farklı açık kaynaklı modelde başarıyla kullandığını söyledi: RoBERTa, Llama 2 ve Eleuther’in GPT-J’si. Zaman zaman model gelişiminin yüzde 20 ila 30 puan arttığını söyledi. Örneğin GPT-J’nin biyografilere dayalı cinsiyet tahmini performansı, LAZER müdahalesinden sonra yüzde 70,9’luk doğruluktan yüzde 97,5’e çıktı.