OpenAI, kendi ve rakip AI modellerinin çıktılarının doğruluğunu değerlendirmek için SimpleQA adı verilen yeni bir kıyaslama başlattı. Ancak test sonuçları, modern büyük dil modelleri (LLM’ler) tarafından oluşturulan bilgilerin güvenilirliğiyle ilgili ciddi sorunları ortaya çıkardı.
Yeni kıyaslamanın amacı, eğitim ve yazılım geliştirmeden sağlık hizmetlerine ve kolluk kuvvetlerine kadar hayatın çeşitli alanlarında giderek daha fazla kullanılan Yüksek Lisans Derecelerinin doğruluğu ve güvenilirliğinin objektif bir değerlendirmesini sağlamaktır. Ancak testler, OpenAI’den o1 ve Anthropic’ten Claude-3.5-sonnet gibi en gelişmiş modellerin bile sırasıyla %42,7 ve %28,9 gibi son derece düşük başarı oranları gösterdiğini gösterdi.
Sorunu daha da karmaşık hale getiren modeller, “yeteneklerini abartma” eğilimi gösteriyor ve “halüsinasyonlar” olarak bilinen tamamen saçma cevaplar üretiyor. Bu eğilim iyi bir şekilde belgelenmiştir ve özellikle sağlık ve kolluk kuvvetleri gibi hassas alanlarda ciddi sonuçlara yol açabilir. Örneğin, hastanelerde kullanılan ve OpenAI teknolojisi üzerine inşa edilen bir yapay zeka modelinin, hastalarla etkileşimleri yazıya geçirirken sık sık halüsinasyonlara ve yanlışlıklara sahip olduğu kaydedildi. ABD’deki polis de yapay zekayı kullanmaya başlıyor, bu da masum olduğuna dair asılsız suçlamalara veya önyargıların artmasına yol açabilir.
Uzmanlara göre SimpleQA testinin sonuçları, mevcut LLM’lerin ne yazık ki güvenilir bir şekilde gerçeği söyleme konusunda yetersiz olduğuna dair bir uyandırma çağrısıdır. Bir OpenAI sözcüsü, “Bu etkinlik, herhangi bir LLM’den gelen herhangi bir çıktının ihtiyatla karşılanması ve oluşturulan metni incelemeye hazır olunması gerektiğini hatırlatmalı” dedi.
AI alanındaki liderlerin iddia ettiği gibi, LLM geçerlilik sorununun daha da büyük eğitim setleriyle çözülüp çözülemeyeceği sorusu hala devam ediyor. Ancak bazı uzmanlara göre, üretilen bilgilerin daha yüksek doğruluğunu ve güvenilirliğini sağlayacak yapay zeka modellerinin geliştirilmesinde yeni yaklaşımların aranması gerekiyor. Bir yapay zeka araştırmacısı, “Yalnızca makul yanıtlar üretebilecek değil, aynı zamanda bunları değerlendirebilecek ve gerçeklikten emin olmadıklarında yanıtları reddedebilecek modeller geliştirmeye odaklanmalıyız” dedi.
SimpleQA kıyaslaması üzerinde yapılan testlerin sonuçları, üretilen bilgilerin güvenilirliğini ve geçerliliğini sağlamak ve yüksek öğrenimin yaşamın çeşitli alanlarında kullanılmasının olası olumsuz sonuçlarını önlemek için yapay zeka alanında daha fazla araştırma ve geliştirmeye duyulan ihtiyacı vurgulamaktadır.


