O kadar akıllı olmayan akıllı botlar
Araştırma, bugün mevcut olan modellerin bir miktar güçlü olduğunu gösteriyor. Örneğin ChatGPT-4o testlerde hala %94,9’luk bir doğruluk oranına ulaştı ancak araştırmacılar sorunu daha karmaşık hale getirdiğinde bu oran önemli ölçüde düştü.
Bu şu ana kadar iyi bir şey ama araştırmacılar, “görünüşte alakalı ama sonuçta önemsiz ifadeler” ekleyerek zorluğu değiştirdiğinde başarı oranı neredeyse çöktü (%65,7’ye kadar).
Doğruluktaki bu düşüşler, herhangi bir gerçek mantıksal akıl yürütmeden ziyade, sonuçlara ulaşmak için hâlâ temel olarak model eşleştirmeye dayanan mevcut LLM modellerinin doğasında olan sınırlamayı yansıtmaktadır. Araştırmacılar, bunun, bu modellerin “anlamlarını gerçekten anlamadan ifadeleri işlemlere dönüştürdüğü” anlamına geldiğini söyledi.