Google’ın Gemini’sinden Anthropic’in Claude’una kadar tüm üretken AI modelleri halüsinasyon görüyor son gizli sürüm OpenAI’nin GPT-40’ının. Başka bir deyişle, modeller güvenilmez anlatıcılardır — bazen komik bir etki yaratır, diğer zamanlarda sorunlu bir şekilde öyle.

Ancak tüm modeller aynı oranda bir şeyler uydurmuyor. Ve ortaya attıkları yanlışların türü, maruz kaldıkları bilgi kaynaklarına bağlı.

A araştırmacıların son çalışması Cornell’de, Washington ve Waterloo üniversiteleri ve kâr amacı gütmeyen araştırma enstitüsü AI2, hukuk ve sağlıktan tarih ve coğrafyaya kadar uzanan konularda yetkili kaynaklara karşı GPT-4o gibi modelleri gerçekleri kontrol ederek halüsinasyonları kıyaslamaya çalıştı. Hiçbir modelin tüm konularda olağanüstü bir performans göstermediğini ve en az halüsinasyon gösteren modellerin bunu kısmen, aksi takdirde yanlış cevaplayacakları soruları cevaplamayı reddettikleri için yaptığını buldular.

Cornell’de doktora öğrencisi ve araştırmanın ortak yazarı olan Wenting Zhao, TechCrunch’a “Çalışmamızdan çıkardığımız en önemli ders, henüz model üretimlerinin çıktılarına tam olarak güvenemediğimizdir” dedi. “Şu anda, en iyi modeller bile yalnızca %35 oranında halüsinasyon içermeyen metin üretebiliyor.”

Modellerin “gerçekliğini” araştırmaya yönelik başka akademik girişimler de oldu. içermek ayrı bir AI2-bağlı ekip tarafından. Ancak Zhao, bu erken testlerin modellere Wikipedia’da kolayca bulunabilen cevapları olan sorular sorduğunu belirtiyor — en zor soru olmasa da, modellerin çoğu Wikipedia verileriyle eğitilmiştir.

Araştırmacılar, kıyaslamalarını daha zorlu hale getirmek ve insanların modellere sorduğu soru türlerini daha doğru bir şekilde yansıtmak için web’de şu konuları belirlediler: yapma Wikipedia referansı var. Sınavlarındaki soruların yarısından biraz fazlası Wikipedia kullanılarak cevaplanamıyor (iyi bir ölçü için Wikipedia kaynaklı olanları da eklediler) ve kültür, coğrafya, astronomi, popüler kültür, finans, tıp, bilgisayar bilimi ve ünlüler gibi konulara değiniyor.

Araştırmacılar, çalışmaları için birçoğu geçtiğimiz yıl piyasaya sürülen bir düzineden fazla popüler modeli değerlendirdi. GPT-4o’ya ek olarak, Meta’nın Llama 3 70B, Mistral’in Mixtral 8x22B ve Cohere’nin Command R+ gibi “açık” modelleri ve Perplexity’nin Sonar Large (Llama’ya dayalı), Google’ın Gemini 1.5 Pro ve Anthropic’in Claude 3 Opus gibi kapılı arkadan API modellerini test ettiler.

Sonuçlar, modellerin günümüzde pek de halüsinasyon görmediğini, aksine iddiaların aksine, gösteriyor. Açık AI, Antropik ve diğer büyük üretken yapay zeka oyuncuları.

GPT-4o ve OpenAI’nin çok daha eski amiral gemisi GPT-3.5, kıyaslamada doğru cevapladıkları soruların yüzdesi açısından hemen hemen aynı performansı gösterdi. (GPT-4o biraz daha iyiydi.) OpenAI’nin modelleri genel olarak en az halüsinasyona yol açan modellerdi; onları Mixtral 8x22B, Command R ve Perplexity’nin Sonar modelleri takip etti.

Ünlüler ve finansla ilgili sorular modellere en çok zor anları yaşattı, ancak coğrafya ve bilgisayar bilimiyle ilgili sorular modeller için cevaplanması en kolay sorulardı (belki de eğitim verilerinde bunlara daha fazla referans olduğu için). Bir cevabın kaynağının Wikipedia olmadığı durumlarda, her model ortalamada daha az olgusal cevap verdi (özellikle GPT-3.5 ve GPT-4o), bu da hepsinin Wikipedia içeriği tarafından yoğun şekilde bilgilendirildiğini gösteriyor.

Web’de bilgi arayabilen modeller bile, Command R ve Perplexity’nin Sonar modelleri gibi, kıyaslamada “Wiki dışı” sorularla mücadele etti. Model boyutu çok önemli değildi; daha küçük modeller (örneğin Anthropic’in Claude 3 Haiku’su) daha büyük, görünüşte daha yetenekli modeller (örneğin Claude 3 Opus) kadar sık ​​halüsinasyon gördü.

Peki tüm bunlar ne anlama geliyor ve tedarikçilerin vadettiği iyileştirmeler nerede?

Eh, satıcıların iddialarını abartmalarını göz ardı edemeyiz. Ancak daha hoşgörülü bir yaklaşım, kullandıkları ölçütlerin bu amaç için uygun olmadığıdır. Daha önce yazdığımız gibi, çoğu olmasa da çoğu AI değerlendirmesi geçicidir ve önemli bağlamdan yoksundur, kurban olmaya mahkûmdur Goodhart yasası.

Zhao, buna rağmen halüsinasyon sorununun “uzun süre devam etmesini” beklediğini söylüyor.

“Makalemizdeki deneysel sonuçlar, halüsinasyonları azaltma veya ortadan kaldırma konusunda belirli yöntemlerin vaadine rağmen, bu yöntemlerle elde edilebilecek gerçek iyileştirmenin sınırlı olduğunu gösteriyor,” dedi. “Ek olarak, analizimiz internette bulunan bilginin bile sıklıkla çelişkili olabileceğini ortaya koyuyor, kısmen de olsa insanlar tarafından yazılan eğitim verileri de halüsinasyonlar içerebiliyor.”

Geçici bir çözüm, daha sık yanıt vermeyi reddeden modeller programlamak olabilir; bu, her şeyi bildiğini sanan birine “Sus!” demenin teknik karşılığıdır.

Araştırmacıların testinde, Claude 3 Haiku sorulan soruların yalnızca yaklaşık %72’sini yanıtladı ve geri kalanından uzak durmayı seçti. Uzak durmaları hesaba kattığımızda, Claude 3 Haiku aslında hepsinin en gerçekçi modeliydi — en azından en az yalan söylemesi anlamında.

Ancak insanlar pek çok soruya cevap vermeyen bir model kullanacak mı? Zhao, hayır diye düşünüyor ve satıcıların zamanlarının ve çabalarının çoğunu halüsinasyon azaltıcı araştırmalara odaklamaları gerektiğini söylüyor. Halüsinasyonları tamamen ortadan kaldırmak mümkün olmayabilir, ancak bir modelin geliştirilmesi sırasında döngüdeki insanların gerçek kontrolü ve alıntılama yoluyla hafifletilebilir, diyor.

Zhao, “Üretici AI modelleri tarafından üretilen bilgileri doğrulama ve onaylama sürecinde insan uzmanların her zaman yer almasını sağlamak için politikalar ve düzenlemeler geliştirilmesi gerekiyor,” diye ekledi. “Bu alanda önemli etkiler yaratmak için hala sayısız fırsat var, örneğin herhangi bir serbest metin için gelişmiş gerçek kontrol araçları geliştirmek, gerçek içerik için alıntılar sağlamak ve halüsinasyonlu metinler için düzeltmeler sunmak gibi.”



genel-24