Hugging Face, kendi albümünü yayınladı ikinci LLM sıralama tablosu test ettiği en iyi dil modellerini sıralamak için. Yeni liderlik tablosu, çeşitli görevlerde açık büyük dil modeli (LLM) performansını test etmek için daha zorlu bir tekdüze standart olmayı hedefliyor. Alibaba’nın Qwen modelleri, liderlik tablosunun ilk sıralamalarında baskın görünüyor ve ilk onda üç sıra alıyor.

Hugging Face’in ikinci liderlik tablosu dil modellerini dört görevde test eder: bilgi testi, aşırı uzun bağlamlarda akıl yürütme, karmaşık matematik becerileri ve talimat takibi. Bu nitelikleri test etmek için altı ölçüt kullanılır ve testler arasında 1.000 kelimelik cinayet gizemlerini çözme, doktora düzeyindeki soruları herkesin anlayabileceği şekilde açıklama ve en korkutucusu: lise matematik denklemleri bulunur. Kullanılan ölçütlerin tam bir dökümü şu adreste bulunabilir: Hugging Face’in blogu.





genel-21