OpenAI yakın zamanda tanıtıldı SimpleQAüretken yapay zekanın (genAI) temelini oluşturan büyük dil modellerinin (LLM’ler) gerçek doğruluğunu değerlendirmek için yeni bir kriter.
Bunu bilim, siyaset, popüler kültür ve sanat gibi farklı alanlardaki 4.326 sorudan oluşan genAI sohbet robotları için bir tür SAT olarak düşünün. Her soru, bağımsız incelemeciler tarafından doğrulanan tek bir doğru cevaba sahip olacak şekilde tasarlanmıştır.
Aynı soru 100 kez soruluyor ve her yanıtın sıklığı takip ediliyor. Buradaki fikir, daha güvenli bir modelin sürekli olarak aynı cevabı vereceğidir.
Sorular, özellikle OpenAI’nin GPT-4’ünü temel alan yapay zeka modelleri için daha önce zorluklar oluşturduğu için seçilmiştir. Bu seçici yaklaşım, düşük doğruluk puanlarının, modellerin genel yeteneklerinden ziyade özellikle zor sorulardaki performansı yansıttığı anlamına gelir.
Bu fikir aynı zamanda herkesin bildiği bilgileri değil, lise öğrencilerinin zorlanacağı ve ustalaşmak için çok çalışmak zorunda kalacağı daha zor soruları vurgulayan SAT sınavına da benziyor. Bu kıyaslama sonuçları, OpenAI modellerinin işin sorulan sorular açısından özellikle doğru olmadığını gösteriyor. Kısacası halüsinasyon görüyorlar.
OpenAI’nin o1 önizleme modeli %42,7 başarı oranına ulaştı. Bunu %38,2 doğrulukla GPT-4o takip etti. Daha küçük olan GPT-4o-mini ise yalnızca %8,6 puan aldı. Anthropic, OpenAI’nin en üst modelinden daha kötü performans gösterdi; Claude-3.5-sonnet modeli cevapların yalnızca %28,9’unu doğru almayı başardı.
Tüm bu modeller not bazında F aldı ve doğru cevaplardan çok daha fazla yanlış cevap verdi. Ve cevaplar bir insan için son derece kolaydır.
SimpleQA tarafından sorulan soru türleri şunlardır:
- Titanik hangi yılda battı?
- Amerika Birleşik Devletleri’nin ilk başkanı kimdi?
- Altının kimyasal sembolü nedir?
- Güneş sistemimizde kaç gezegen var?
- Fransa’nın başkenti neresidir?
- Dünyanın en uzun nehri hangisidir?
- Mona Lisa’yı kim boyadı?
- Harry Potter’ın ilk kitabının adı nedir?
- CPU’nun açılımı nedir?
- Bilgisayarın babası olarak bilinen kişi kimdir?
Bunlar çoğu insan için cevaplaması oldukça basit sorular, ancak sohbet robotları için sorun yaratabilirler. Bu araçların zorluk yaşamasının bir nedeni de SimpleQA sorularının kesin, tek ve tartışılmaz cevaplar gerektirmesidir. Küçük değişiklikler veya riskten korunma bile notun başarısız olmasına neden olabilir. Chatbotlar, çok karmaşık konulara bile açık uçlu genel bakışlarla daha iyi iş çıkarıyor ancak tek, kısa ve kesin bir yanıt vermekte zorlanıyor.
Ayrıca SimpleQA soruları kısa ve müstakildir ve pek fazla bağlam sağlamaz. Bu nedenle yazdığınız istemlerde mümkün olduğunca fazla bağlam sağlamak yanıtların kalitesini artırır.
Sorunu daha da karmaşık hale getiren Yüksek Lisans’lar genellikle kendi doğruluklarını abartıyorlar. SimpleQA, sohbet robotlarına cevaplarının doğruluğu hakkında ne düşündüklerini sorguladı; modeller sürekli olarak şişirilmiş başarı oranları bildirdi. Kendine güveniyormuş gibi davranırlar ama içsel güvenleri düşük olabilir.
Yüksek Lisans’lar gerçekten düşünmüyor
Bu sırada, MIT, Harvard ve Cornell Üniversitesi’nden yeni yayınlanan araştırma Yüksek Lisans’ların etkileyici görevleri yerine getirebilseler de dünyaya dair tutarlı bir anlayışa sahip olmadıklarını gösteriyor.
Test örneklerinden biri olarak araştırmacılar, Yüksek Lisans’ların New York City gibi karmaşık ortamlarda doğru sürüş talimatları oluşturabildiğini buldu. Ancak araştırmacılar dolambaçlı yollara girdiğinde modellerin performansı düştü çünkü çevrenin içsel bir temsiline sahip değildiler (insanların sahip olduğu gibi). New York City’deki caddelerin yalnızca %1’inin kapatılması, yapay zekanın yön doğruluğunun neredeyse %100’den %67’ye düşmesine neden oldu.
Araştırmacılar, bir model kontrollü bir ortamda iyi performans gösterse bile, rastgele veya çeşitli senaryolar için gerekli olan tutarlı bilgi yapılarına sahip olmayabileceğini buldu.
AI halüsinasyonlarıyla ilgili sorun
Hepimizin karşılaştığı temel sorun şudur: Endüstriler ve bireyler, gerçek dünyada gerçek işler için zaten yüksek lisans tabanlı sohbet robotlarına ve üretken yapay zeka araçlarına güveniyorlar. Halk ve hatta profesyoneller bu teknolojinin gerçekte olduğundan daha güvenilir olduğuna inanıyor.
Yakın tarihli bir örnek olarak OpenAI, hastanelerin ve doktorların halihazırda tıbbi transkripsiyonlar için kullandığı Whisper adlı bir yapay zeka transkripsiyon aracı sunuyor. Associated Press, Whisper’ın bir versiyonunun olduğunu bildirdi. 4,2 milyondan fazla kez indirildi açık kaynaklı yapay zeka platformu HuggingFace’ten.
Los Angeles Çocuk Hastanesi de dahil olmak üzere 30.000’den fazla klinisyen ve 40 sağlık sistemi, Whisper’ı temel alan ancak tıbbi dil için optimize edilmiş Nabla adlı bir araç kullanıyor. Şirket, Nabla’nın Amerika Birleşik Devletleri ve Fransa’da yaklaşık yedi milyon tıbbi ziyaret için kullanıldığını tahmin ediyor.
Tüm bu yapay zeka araçlarında olduğu gibi Whisper da halüsinasyonlara eğilimlidir.
Transkripsiyonlarda Whisper halüsinasyonlarını arayan bir mühendis, incelenen her belgede bunu buldu. Bir diğeri, analiz ettiği 100 saatlik Whisper transkripsiyonunun yarısında halüsinasyonlar buldu.
Virginia Üniversitesi’nden profesörler, Carnegie Mellon Üniversitesi’nde barındırılan bir araştırma havuzundan binlerce kısa parçayı inceledi. Halüsinasyonların yaklaşık %40’ının “zararlı veya endişe verici” olduğunu buldular.
Hatta bir transkripsiyonda Whisper, “hiperaktif antibiyotikler” adı verilen, var olmayan bir ilacı bile icat etti.
Uzmanlar, Whisper tabanlı transkripsiyon kullanımının yanlış teşhislere ve diğer sorunlara yol açacağından korkuyor.
AI halüsinasyonları hakkında ne yapılmalı
Doktorunuzdan tanı aldığınızda ikinci bir görüş almak isteyebilirsiniz. Aynı şekilde, bir sonuç aldığınızda SohbetGPT, Şaşkınlık Yapay Zekasıveya başka bir Yüksek Lisans tabanlı sohbet robotu kullanıyorsanız, ikinci bir görüş de almalısınız.
Bir aracı diğerini kontrol etmek için kullanabilirsiniz. Örneğin, sorgunuzun konusunun orijinal belgeleri (örneğin, bilimsel bir araştırma makalesi, bir sunum veya herhangi bir türde PDF) varsa, bu orijinal belgeleri Google’ın NotebookLM aracı. Daha sonra diğer araçtan sonuçları kopyalayabilir, NotebookLM’ye yapıştırabilir ve sonuçların gerçekten doğru olup olmadığını sorabilirsiniz.
Orijinal kaynakları da kontrol etmelisiniz. Her şeyin doğruluğunu kontrol edin.
Sohbet robotları öğrenme, konuları keşfetme, belgeleri özetleme ve diğer birçok kullanım için harika olabilir. Ancak genel olarak güvenilir gerçek bilgi kaynakları değildirler.
Asla yapmamanız gereken şey, AI sohbet robotlarından sonuçları kopyalamak ve kendi sesinizi ve kendi gerçeklerinizi temsil edecek şekilde başka bir şeye yapıştırmak. Dil genellikle biraz “kapalı”dır. Noktaların vurgusu tuhaf olabilir. Ve bu yanıltıcı bir uygulamadır.
Hepsinden kötüsü, kullandığınız chatbot halüsinasyon görüyor, yalan söylüyor ya da doğrudan bir şeyler uyduruyor olabilir. İnsanların düşündüğü kadar akıllı değiller.