Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Çalışma, en iyi yapay zeka modellerinin bile bir sürü halüsinasyon gördüğünü öne sürüyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Çalışma, en iyi yapay zeka modellerinin bile bir sürü halüsinasyon gördüğünü öne sürüyor

Liste

Çalışma, en iyi yapay zeka modellerinin bile bir sürü halüsinasyon gördüğünü öne sürüyor

teknomers
Son güncelleme: 14 Ağustos 2024 22:10
teknomers
Paylaş
Paylaş


Google’ın Gemini’sinden Anthropic’in Claude’una kadar tüm üretken AI modelleri halüsinasyon görüyor son gizli sürüm OpenAI’nin GPT-40’ının. Başka bir deyişle, modeller güvenilmez anlatıcılardır — bazen komik bir etki yaratır, diğer zamanlarda sorunlu bir şekilde öyle.

Ancak tüm modeller aynı oranda bir şeyler uydurmuyor. Ve ortaya attıkları yanlışların türü, maruz kaldıkları bilgi kaynaklarına bağlı.

A araştırmacıların son çalışması Cornell’de, Washington ve Waterloo üniversiteleri ve kâr amacı gütmeyen araştırma enstitüsü AI2, hukuk ve sağlıktan tarih ve coğrafyaya kadar uzanan konularda yetkili kaynaklara karşı GPT-4o gibi modelleri gerçekleri kontrol ederek halüsinasyonları kıyaslamaya çalıştı. Hiçbir modelin tüm konularda olağanüstü bir performans göstermediğini ve en az halüsinasyon gösteren modellerin bunu kısmen, aksi takdirde yanlış cevaplayacakları soruları cevaplamayı reddettikleri için yaptığını buldular.

Cornell’de doktora öğrencisi ve araştırmanın ortak yazarı olan Wenting Zhao, TechCrunch’a “Çalışmamızdan çıkardığımız en önemli ders, henüz model üretimlerinin çıktılarına tam olarak güvenemediğimizdir” dedi. “Şu anda, en iyi modeller bile yalnızca %35 oranında halüsinasyon içermeyen metin üretebiliyor.”

Modellerin “gerçekliğini” araştırmaya yönelik başka akademik girişimler de oldu. içermek ayrı bir AI2-bağlı ekip tarafından. Ancak Zhao, bu erken testlerin modellere Wikipedia’da kolayca bulunabilen cevapları olan sorular sorduğunu belirtiyor — en zor soru olmasa da, modellerin çoğu Wikipedia verileriyle eğitilmiştir.

Araştırmacılar, kıyaslamalarını daha zorlu hale getirmek ve insanların modellere sorduğu soru türlerini daha doğru bir şekilde yansıtmak için web’de şu konuları belirlediler: yapma Wikipedia referansı var. Sınavlarındaki soruların yarısından biraz fazlası Wikipedia kullanılarak cevaplanamıyor (iyi bir ölçü için Wikipedia kaynaklı olanları da eklediler) ve kültür, coğrafya, astronomi, popüler kültür, finans, tıp, bilgisayar bilimi ve ünlüler gibi konulara değiniyor.

Araştırmacılar, çalışmaları için birçoğu geçtiğimiz yıl piyasaya sürülen bir düzineden fazla popüler modeli değerlendirdi. GPT-4o’ya ek olarak, Meta’nın Llama 3 70B, Mistral’in Mixtral 8x22B ve Cohere’nin Command R+ gibi “açık” modelleri ve Perplexity’nin Sonar Large (Llama’ya dayalı), Google’ın Gemini 1.5 Pro ve Anthropic’in Claude 3 Opus gibi kapılı arkadan API modellerini test ettiler.

Sonuçlar, modellerin günümüzde pek de halüsinasyon görmediğini, aksine iddiaların aksine, gösteriyor. Açık AI, Antropik ve diğer büyük üretken yapay zeka oyuncuları.

GPT-4o ve OpenAI’nin çok daha eski amiral gemisi GPT-3.5, kıyaslamada doğru cevapladıkları soruların yüzdesi açısından hemen hemen aynı performansı gösterdi. (GPT-4o biraz daha iyiydi.) OpenAI’nin modelleri genel olarak en az halüsinasyona yol açan modellerdi; onları Mixtral 8x22B, Command R ve Perplexity’nin Sonar modelleri takip etti.

Ünlüler ve finansla ilgili sorular modellere en çok zor anları yaşattı, ancak coğrafya ve bilgisayar bilimiyle ilgili sorular modeller için cevaplanması en kolay sorulardı (belki de eğitim verilerinde bunlara daha fazla referans olduğu için). Bir cevabın kaynağının Wikipedia olmadığı durumlarda, her model ortalamada daha az olgusal cevap verdi (özellikle GPT-3.5 ve GPT-4o), bu da hepsinin Wikipedia içeriği tarafından yoğun şekilde bilgilendirildiğini gösteriyor.

Web’de bilgi arayabilen modeller bile, Command R ve Perplexity’nin Sonar modelleri gibi, kıyaslamada “Wiki dışı” sorularla mücadele etti. Model boyutu çok önemli değildi; daha küçük modeller (örneğin Anthropic’in Claude 3 Haiku’su) daha büyük, görünüşte daha yetenekli modeller (örneğin Claude 3 Opus) kadar sık ​​halüsinasyon gördü.

Peki tüm bunlar ne anlama geliyor ve tedarikçilerin vadettiği iyileştirmeler nerede?

Eh, satıcıların iddialarını abartmalarını göz ardı edemeyiz. Ancak daha hoşgörülü bir yaklaşım, kullandıkları ölçütlerin bu amaç için uygun olmadığıdır. Daha önce yazdığımız gibi, çoğu olmasa da çoğu AI değerlendirmesi geçicidir ve önemli bağlamdan yoksundur, kurban olmaya mahkûmdur Goodhart yasası.

Zhao, buna rağmen halüsinasyon sorununun “uzun süre devam etmesini” beklediğini söylüyor.

“Makalemizdeki deneysel sonuçlar, halüsinasyonları azaltma veya ortadan kaldırma konusunda belirli yöntemlerin vaadine rağmen, bu yöntemlerle elde edilebilecek gerçek iyileştirmenin sınırlı olduğunu gösteriyor,” dedi. “Ek olarak, analizimiz internette bulunan bilginin bile sıklıkla çelişkili olabileceğini ortaya koyuyor, kısmen de olsa insanlar tarafından yazılan eğitim verileri de halüsinasyonlar içerebiliyor.”

Geçici bir çözüm, daha sık yanıt vermeyi reddeden modeller programlamak olabilir; bu, her şeyi bildiğini sanan birine “Sus!” demenin teknik karşılığıdır.

Araştırmacıların testinde, Claude 3 Haiku sorulan soruların yalnızca yaklaşık %72’sini yanıtladı ve geri kalanından uzak durmayı seçti. Uzak durmaları hesaba kattığımızda, Claude 3 Haiku aslında hepsinin en gerçekçi modeliydi — en azından en az yalan söylemesi anlamında.

Ancak insanlar pek çok soruya cevap vermeyen bir model kullanacak mı? Zhao, hayır diye düşünüyor ve satıcıların zamanlarının ve çabalarının çoğunu halüsinasyon azaltıcı araştırmalara odaklamaları gerektiğini söylüyor. Halüsinasyonları tamamen ortadan kaldırmak mümkün olmayabilir, ancak bir modelin geliştirilmesi sırasında döngüdeki insanların gerçek kontrolü ve alıntılama yoluyla hafifletilebilir, diyor.

Zhao, “Üretici AI modelleri tarafından üretilen bilgileri doğrulama ve onaylama sürecinde insan uzmanların her zaman yer almasını sağlamak için politikalar ve düzenlemeler geliştirilmesi gerekiyor,” diye ekledi. “Bu alanda önemli etkiler yaratmak için hala sayısız fırsat var, örneğin herhangi bir serbest metin için gelişmiş gerçek kontrol araçları geliştirmek, gerçek içerik için alıntılar sağlamak ve halüsinasyonlu metinler için düzeltmeler sunmak gibi.”



genel-24

23 Kasım 2022 Çarşamba gününün öne çıkan teknoloji haberleri
Gelecekteki İletişimler İçin Gerekli Standart Ay Referans Saati
Golfçüler için 31’den fazla en iyi hediye – işte gerçekten isteyecekleri golf ekipmanı
Sony, Uncharted 2 ve Yeni Örümcek Adam Üçlemesini Geliştiriyor
Tekken 8’e Mishima soyunun destanının bir sonraki bölümünü gösteren resmi hikaye fragmanı geldi
ETİKETLENDİ:AI2Allen EnstitüsüAraştırmabileBirçalışmaÇalışmakGördüğünüHalüsinasyonhalüsinasyonlariyimodellerininÖnesürüsürüyorÜretken AIYapayyapay zekaZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Mobil veri çalışmıyor: Sorunu şu şekilde çözebilirsiniz
Sonraki Makale İyi haber – Microsoft sonunda Windows PC ve Android cihaz kullanıcıları için AirDrop’a benzeyen bir özelliği hayata geçiriyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Canavarların Dünyasında Yönetim Deneyimi: Korku Evi Eğlencesi
Oyun
Amazon Çalışanları Seattle’dan Yeni Veri Merkezlerine Ara Vermesini İstiyor
Liste
Herkese Açık Olarak Bir SaaS Motoru Geliştirmek: Stripe’a Bağlı Olmayan Bir Faturalama Motoru
Yazılım
Bruvi Pod Kahve Makinesi’nde Yüzde 50 İndirim! Şimdi Alın!
Genel
Vintage AMD GPU’ları Canlandıran AI Destekli R600 Sürücüsü
Donanım
Valor Mortis, Eylül Çıkış Tarihini Değiştirme Üzerine Düşünüyor
Oyun
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?