OpenAI, ChatGPT

Google ve Microsoft güçlü büyük dil modelleri (LLM) ile eğiterek sohbet robotlarının yanıtlarını iyileştirmek için çalışıyorlar. ChatGPT yapımcı OpenAI halüsinasyonları tespit etmek için bir model yetiştirdiğini de duyurdu.

AI halüsinasyonu nedir?
AI halüsinasyonları, ChatGPT veya Google Bard’ı bilgi üretip gerçekmiş gibi sunmak. Geçenlerde ChatGPT, bir New York federal mahkemesi dosyasındaki ‘sahte’ davalardan alıntı yaptı. Aslında, Bard’ın sunumu sırasında, chatbot hakkında yanlış bilgi verdi. James Webb teleskop.

“Son teknoloji modeller bile yalan üretmeye yatkındır – belirsizlik anlarında gerçekleri icat etme eğilimi gösterirler. OpenAI araştırmacıları, bu halüsinasyonların çok adımlı muhakeme gerektiren alanlarda özellikle sorunlu olduğunu, çünkü tek bir mantıksal hatanın çok daha büyük bir çözümü raydan çıkarmak için yeterli olduğunu söyledi.

Microsoft destekli şirket, halüsinasyonları hafifletmenin, insanlar gibi entelektüel görevleri anlayabilen veya öğrenebilen bir makine olan uyumlu yapay genel zeka (AGI) oluşturmaya yönelik kritik bir adım olduğunu söyledi.

AI modelleri kendilerini ödüllendirmek için
“Doğru son yanıtı ödüllendirmek (“sonuç denetimi”) yerine, her doğru muhakeme adımını ödüllendirerek (“süreç denetimi”) matematiksel problem çözmede yeni bir son teknoloji elde etmek için bir model geliştirdik. “Şirket bu hafta yayınlanan araştırmasında söyledi.

Daha basit bir ifadeyle OpenAI, yapay zeka modellerini yalnızca doğru yanıt için değil, her bir doğru muhakeme adımı için kendilerini ödüllendirecek şekilde eğitmek istiyor. OpenAI, modelin performansı artırdığını ve modeli “insanlar tarafından onaylanan bir düşünce zinciri üretmek” için doğrudan eğittiğini söyledi. Bu, denetimin modeli insan tarafından onaylanan bir süreci takip etmeye teşvik ettiği anlamına gelir.

OpenAI araştırması, “Nihai sonuca dayalı geri bildirim sağlayan sonuç denetimini veya bir düşünce zincirindeki her bir adım için geri bildirim sağlayan süreç denetimini kullanarak halüsinasyonları tespit etmek için ödül modelleri eğitebiliriz.”

OpenAI matematik araştırmacısı Karl Cobbe, CNBC’ye verdiği demeçte, OpenAI, araştırma makalesinde bahsedilen modeli eğitmek için kullandığı 800.000 insan etiketinden oluşan bir veri seti yayınladı. Araştırma ekibi ayrıca süreç denetimli ödül modelinin genel olarak daha iyi performans gösterdiğini söyledi.

FacebooktwitterLinkedin



makalenin sonu



genel-9