Vectara bir yayınladı AI halüsinasyon liderlik tablosu çeşitli önde gelen AI sohbet robotlarını yeteneklerine göre sıralıyor Olumsuz ‘Halüsinasyon görüyorum.’ Açıkçası, çeşitli halka açık geniş dil modellerinin (LLM’ler) ne ölçüde halüsinasyon gördüğünü vurgulamak için tasarlandı, ancak bu ne anlama geliyor, neden önemli ve nasıl ölçülüyor?

Yapay zeka sohbet robotlarının dikkat etmeye başladığımız özelliklerinden biri de ‘halüsinasyon’ eğilimidir. gerçekleri uydur boşlukları doldurmak için. Bunun oldukça kamuya açık bir örneği, hukuk firması Levidow, Levidow & Oberman’ın “yapay zeka aracı ChatGPT tarafından oluşturulan sahte alıntılar ve alıntılarla var olmayan hukuki görüşleri sunduktan” sonra başlarının belaya girmesiydi. Martinez v. Delta Air Lines gibi uydurma hukuki kararların gerçek yargı kararlarıyla tutarlı bazı özelliklere sahip olduğu kaydedildi, ancak daha yakından incelendiğinde bazı kısımların “anlamsız” olduğu ortaya çıktı.

Sağlık, sanayi, savunma ve benzeri alanlarda yüksek lisansların potansiyel kullanımını düşünürseniz, devam eden herhangi bir gelişmenin parçası olarak yapay zeka halüsinasyonlarını ortadan kaldırmak açıkça zorunludur. Kontrollü referans koşulları altında halüsinasyon gören bir yapay zekanın pratik bir örneğini gözlemlemek için Vectara, on bir halka açık Yüksek Lisans ile bazı testler yapmaya karar verdi:

(Resim kredisi: Vectara / GitHub)
  • Yüksek Lisans’lara 800’den fazla kısa referans belgesinden oluşan bir yığın besleyin.
  • LLM’lerden, standart bir istemin yönlendirdiği şekilde, belgelerin gerçek özetlerini sağlamalarını isteyin.
  • Yanıtları, kaynaklarda bulunmayan verilerin girişini tespit eden bir modele besleyin.



genel-21