Openai şirketi, yeni dil modeli GPT-4.5’in, Simpleqa’nın gerçekliğini değerlendirmek için iç araca göre vakaların% 37’sinde yanlış cevaplar ürettiğini doğruladı. Resmi sürümde dile getirilen bu veriler, modern AI algoritmalarının güvenilirliği hakkında bir tartışmaya neden oldu.
İlerleme ifadelerine rağmen-GPT-4O ve O3-Mini’nin önceki sürümleri sırasıyla halüsinasyonların% 61.8 ve% 80.3’ü gösterdi-Experts, “en iyi modellerin” bile yanlış kaldığını vurgulamaktadır.
Cornell Üniversitesi’nden AI Halüsinasyonlarının CO’su Vening Zhao, “Şimdi en gelişmiş sistemler bile vakaların sadece% 35’inde kurgu olmadan metin üretebiliyor” dedi. Yorumu endüstrinin sistemik sorununu doğrulamaktadır: “insansı zeka” ile araç olarak konumlandırılan pahalı modeller genellikle temel gerçeklerle karıştırılmaktadır.
Yüz milyarlarca dolar olarak tahmin edilen Openai, geçmiş sürümlere kıyasla hatalarda bir azalmaya odaklanarak reaksiyonu yumuşatmaya çalışıyor. Bununla birlikte, eleştirmenler bu tür karşılaştırmaların sadece teknolojinin gelişiminde durgunluğu maskelediğini belirtiyor. ChatGPT’nin etkileyici başlangıcından sonra, şirket devam eden bir yavaşlama ile karşı karşıya kaldı ve verilere bakarak GPT-4.5 bir atılım haline gelmedi.
Uzmanlar üzerinde anlaşma: Endüstrinin güven krizinin üstesinden gelmek için kozmetik güncellemeler değil, temel iyileştirmelere ihtiyaç vardır. Bu arada, kullanıcılar nöral ağların düzenli olarak “ortaya çıktıkları” gerçeğine katlanmak zorunda kalıyorlar – ister karmaşık verilerin basit bir sorusunun cevabı olsun, ister bu.


