ChatGPT gibi sohbet robotlarına güç veren büyük dil modelleri (LLM’ler), matematiksel akıl yürütmeyi ölçen kıyaslama sorularını yanıtlamada daha iyi hale gelebilir. Ancak bu aslında kötü bir şey olabilir.

A ön baskı Scale AI’daki araştırmacılar tarafından Çarşamba günü yayınlanan araştırma makalesinde, LLM’lerin matematik kıyaslama testlerinde nasıl etkileyici sonuçlar elde ettiği, ancak veri seti kirliliğinin yüksek notları körüklediğine dair artan endişeler olduğu ayrıntılı olarak açıklandı.





genel-26