ChatGPT gibi sohbet robotlarına güç veren büyük dil modelleri (LLM’ler), matematiksel akıl yürütmeyi ölçen kıyaslama sorularını yanıtlamada daha iyi hale gelebilir. Ancak bu aslında kötü bir şey olabilir.
A ön baskı Scale AI’daki araştırmacılar tarafından Çarşamba günü yayınlanan araştırma makalesinde, LLM’lerin matematik kıyaslama testlerinde nasıl etkileyici sonuçlar elde ettiği, ancak veri seti kirliliğinin yüksek notları körüklediğine dair artan endişeler olduğu ayrıntılı olarak açıklandı.
Bu, kıyaslama sorularına benzeyen verilerin eğitim verilerine sızdığı zamandır. LLM daha sonra, çözmeye çalıştığı matematik problemini gerçekten anlamak yerine, bu standart testleri geçmeyi önceliklendirecek şekilde eğitim alabilir.
Bu, problemin nasıl çözüleceğini öğrenmek yerine, cevapları ezberleyerek bir matematik sınavına hazırlanmanıza benzer. Bu soruna aşırı uyum denir.
Ancak makalenin yazarları, sonuçlarının bu teoriyi desteklemediğini söylüyor ve bunun yapay zekanın muhakeme konusunda kötü olduğu anlamına gelmediğini, sadece kriterlerin önerdiği kadar iyi olmayabileceğini öne sürüyor.
Yeni bir matematik ölçütü geliştirmek
Veri kirliliği şu anda LLM değerlendirmeleri için büyük bir sorundur. Scale’de, fazla uyumu ölçmek için GSM8k için *sıfırdan* yeni bir test seti oluşturduk ve bazı modellerin (özellikle Mistral ve Phi) GSM8k’ye kıyasla bu yeni test setinde önemli ölçüde daha kötü performans gösterdiğine dair kanıtlar bulduk. pic.twitter.com/JgPQUaYsEc2 Mayıs 2024
Makalede yazarlar şunu yazdı: “Bir modelin gereğinden fazla uygun olması, onun muhakeme yeteneğinin zayıf olduğu anlamına gelmez, sadece kriterlerin gösterdiği kadar iyi olmadığı anlamına gelir.” modeller, eğitim setlerinde daha önce hiç karşılaşmadıkları problemleri hâlâ akıl yürütebiliyor ve çözebiliyor.
Bu değerlendirmeleri gerçekleştirmek için kendi matematik kıyaslama testini (GSM1k) geliştirdiler ve bunun yapay zekanın yalnızca cevabı değil, sorunu anlama yeteneğini de test ettiğini söylediler.
Sorular ilkokul matematik düzeyindedir ve tipik bir GSM1k sorusu şuna benzer: Jim aylık kazancının %15’ini market alışverişine harcamak istiyor. Ayda 2500 dolar kazanıyor. Geriye ne kadar para kalacak? Doğru cevap 2125 dolar.
Bu tür sorular zorluk açısından sektördeki altın standart testteki (GSM8k) sorulara çok benzese de, yüksek lisans öğrencilerinin daha önce görmedikleri matematik bulmacalarını çözüp çözemediklerini test edecek kadar farklıdırlar.
Scale AI’deki araştırma ekibi, yeni testlerini kullanarak, önde gelen açık ve kapalı kaynak LLM’leri değerlendirirken doğrulukta %13’e varan düşüşler bildirdi. Gemini, GPT ve Claude gibi sınırdaki diğer modeller minimum düzeyde aşırı uyum belirtileri gösterdi.
Sıradaki ne?
Akademik kriterler gücünü kaybediyor. İleriye dönük olarak, önemli olan 3 tür LLM değerlendirmesi vardır: 1. Özel olarak düzenlenen, ancak tanıtımını yapacak kendi LLM’si olmayan güvenilir bir 3. taraf tarafından yapılan, halka açık olarak rapor edilen puanlar. @scale_AI’nin en son GSM1k’si harika bir örnek.… pic.twitter.com/j6a1Mf5biN2 Mayıs 2024
Yazarlar, 2025 yılına kadar ilkokul matematiğinin artık yeni Yüksek Lisans’ları kıyaslamak için yeterince zor olmayacağını öngördüklerinden, bu ‘sorun’ zamanla kendi kendine çözülebilir. Yine de yüksek lisansta muhakemeyi geliştirmenin “mevcut araştırmaların en önemli yönlerinden biri olduğunu” söylüyorlar.
NVIDIA Kıdemli Araştırma Bilimcisi Jim Fan şunları söyledi: X Akademik kriterlerin gücünü kaybettiğini düşünüyoruz.
Gelecekte önemli olacak üç tür LLM değerlendirmesinin Scale AI gibi özel olarak düzenlenen testler, modelleri yan yana test edebileceğiniz Chatbot Arena gibi halka açık karşılaştırmalı kıyaslamalar ve her şirketin kendi için özel olarak seçilmiş kıyaslamalar olacağını söyledi. vakaları kullanın.