Hugging Face, kendi albümünü yayınladı ikinci LLM sıralama tablosu test ettiği en iyi dil modellerini sıralamak için. Yeni liderlik tablosu, çeşitli görevlerde açık büyük dil modeli (LLM) performansını test etmek için daha zorlu bir tekdüze standart olmayı hedefliyor. Alibaba’nın Qwen modelleri, liderlik tablosunun ilk sıralamalarında baskın görünüyor ve ilk onda üç sıra alıyor.
Yepyeni açık LLM liderlik tablosunu duyurmaktan heyecan duyuyoruz. Tüm büyük açık LLM’ler için MMLU-pro gibi yeni değerlendirmeleri tekrar çalıştırmak için 300 H100 harcadık! Biraz öğrenme:- Qwen 72B kraldır ve Çin açık modelleri genel olarak baskındır- Önceki değerlendirmeler son zamanlarda çok kolay hale geldi…26 Haziran 2024
Hugging Face’in ikinci liderlik tablosu dil modellerini dört görevde test eder: bilgi testi, aşırı uzun bağlamlarda akıl yürütme, karmaşık matematik becerileri ve talimat takibi. Bu nitelikleri test etmek için altı ölçüt kullanılır ve testler arasında 1.000 kelimelik cinayet gizemlerini çözme, doktora düzeyindeki soruları herkesin anlayabileceği şekilde açıklama ve en korkutucusu: lise matematik denklemleri bulunur. Kullanılan ölçütlerin tam bir dökümü şu adreste bulunabilir: Hugging Face’in blogu.
Yeni liderlik sıralamasında lider konumda olan Alibaba’nın LLM’si Qwen, az sayıda çeşidiyle 1., 3. ve 10. sırada yer alıyor. Ayrıca Llama3-70B, Meta’nın LLM’si ve paketten daha iyi performans göstermeyi başaran bir avuç daha küçük açık kaynaklı proje de yer alıyor. ChatGPT’nin herhangi bir belirtisinin olmaması dikkat çekicidir; Hugging Face’in skor tablosu, sonuçların tekrarlanabilirliğini sağlamak için kapalı kaynak modellerini test etmez.
Liderlik sıralamasına girmeye yönelik testler yalnızca Hugging Face’in kendi bilgisayarlarında yapılıyor; CEO Clem Delangue’un Twitter hesabına göre bu bilgisayarlar 300 adet Nvidia H100 GPU tarafından destekleniyor. Hugging Face’in açık kaynak ve işbirlikçi doğası nedeniyle, test için popüler yeni girişlere öncelik veren yeni bir oylama sistemi ile herkes test için ve liderlik tablosuna kabul edilmek üzere yeni modeller göndermekte özgürdür. Liderlik tablosu, kafa karıştırıcı küçük LLM bolluğunu önlemek için yalnızca önemli modellerin vurgulanmış bir dizisini gösterecek şekilde filtrelenebilir.
LLM alanının bir ayağı olarak Hugging Face, LLM öğrenimi ve topluluk iş birliği için güvenilir bir kaynak haline geldi. İlk liderlik tablosu geçen yıl birkaç yerleşik LLM’den test sonuçlarını karşılaştırma ve yeniden üretme aracı olarak yayınlandıktan sonra, tablo hızla popülerlik kazandı. Tabloda yüksek sıralara ulaşmak, küçük ve büyük birçok geliştiricinin hedefi haline geldi ve modeller genel olarak daha güçlü, daha ‘akıllı’ ve ilk liderlik tablosunun belirli testleri için optimize edildikçe, sonuçları giderek daha az anlamlı hale geldi, bu nedenle ikinci bir varyant oluşturuldu.
Meta’nın Llama’sının daha yeni varyantları da dahil olmak üzere bazı LLM’ler, birincideki yüksek notlarına kıyasla yeni liderlik tablosunda ciddi şekilde düşük performans gösterdi. Bu, LLM’leri yalnızca ilk liderlik tablosunun ölçütlerinde aşırı eğitme eğiliminden kaynaklandı ve gerçek dünya performansında gerilemeye yol açtı. Hiper spesifik ve kendi kendine referanslı veriler sayesinde bu performans gerilemesi, yapay zeka performansının zamanla kötüleşme eğilimini takip ediyor ve Google’ın yapay zeka yanıtlarının LLM performansının yalnızca eğitim verileri kadar iyi olduğunu ve gerçek yapay “zekanın” hala çok, çok yıllar uzakta olduğunu göstermesiyle bir kez daha kanıtlandı.