OpenAI raporunda bunu büyük ölçüde kabul ediyor: “Bu çalışmada, yalnızca kısa, gerçekleri arayan soruları tek bir yanıtla ele alarak dil modellerinin açık uçluluğundan kaçınacağız. Kapsamın bu şekilde daraltılması önemlidir, çünkü kısa biçimli olgusallığa ilişkin iyileştirilmiş davranışın uzun biçimli olgusallığa genellenip genellenmeyeceği gibi araştırma sorularını açık bırakma pahasına da olsa, olgusallığın ölçülmesini çok daha kolay takip edilebilir hale getirir.

Raporun ilerleyen kısımlarında OpenAI şöyle açıklıyor: “SimpleQA’nın ana sınırlaması, doğru olmasına rağmen, yalnızca kısa, gerçekleri araştıran sorguların kısıtlı ortamında tek, doğrulanabilir bir yanıtla gerçekliği ölçmesidir. Gerçeklere dayalı kısa yanıtlar verme becerisinin, çok sayıda gerçekle dolu uzun yanıtlar yazma becerisiyle ilişkili olup olmadığı açık bir araştırma sorusu olmaya devam ediyor.”

İşte ayrıntılar: SimpleQA 4.326 “kısa, gerçekleri araştıran sorudan” oluşuyor.



genel-12