Resim: alengo/Getty Images.

ChatGPT gibi üretken yapay zeka programlarının en büyük zayıflıklarından biri zamansal sınırlamalarıdır. Örneğin ChatGPT, OpenAI’nin GPT-4’ün Nisan 2023’e kadar verilere erişmesine izin veren bir güncellemeyi duyurmasından önce, Eylül 2021’den önce uzun süre bilgiyle sınırlıydı.

Bu programları geliştirmek için yapay zeka mühendisleri, sürekli gelişen verilere güvenilir bir şekilde erişmelerini sağlayacak yollar üzerinde çalışıyor.

Bunu akılda tutarak, Google ve OpenAI bu ay, GPT-4’ü Google aramalarından toplanan analizleri kullanmaya teşvik eden “FreshLLM” adlı ortak bir proje yayınladı. FreshLLM’nin özü, arama motoru sonuçlarını içeren “FreshPrompt” adı verilen bir dil modelini yönlendirmeye yönelik yeni bir yöntemdir.

Nasıl çalışır ?

Google’ın en iyi arama sonuçlarını GPT-4’ün giriş istemine dahil ederek ve ardından bu arama sonuçlarına dayalı olarak bir sorguya geçerli bir yanıt göstererek, GPT-4, sonucunu geliştirmek için web üzerinde aranabilir kanıtları kullanmaya teşvik edilir.

“FreshPrompt performansı önemli ölçüde artırıyor [des programmes d’IA générative] arama motorlarını kullanan rakip yaklaşımlarla karşılaştırıldığında” Google’dan Tu Vu ve ekibinin altını çizin.

Ancak FreshPrompt hikayenin yalnızca bir kısmı. GPT-4 ve rakiplerinin internetteki verileri kullanma konusundaki performansını test etmek için Tu Vu ve ekibinin gerçekleri ve haberleri içeren bir soru listesi geliştirmesi gerekiyordu.

600 farklı ve çeşitli soru

Ekip, bunu gerçekleştirmek için dış işbirliklerinden de yardım alarak “dünyanın evrimi” üzerine sorular hazırladı. Sorular ilk olarak bilgiyi harekete geçirmek için seçildi “taze” – yani “son zamanlarda değişen veya yeni olaylarla ilgili bilgileri” talep etmek. Ayrıca makul olmaları da gerekiyordu”: “Gerçek bir kişinin bu soruyu arama motoruna yazması makul” olmalıydı.

Google ve OpenAI araştırmacıları tarafından oluşturulan 600 sorudan bazıları. Resim: Google, OpenAI.

“FreshAQ” adı altında gruplandırılan bu 600 soru, “Virginia Woolf’un Ramsay ailesi hakkındaki romanı Amerika Birleşik Devletleri’nde kamu alanına girdi mi?” “Brad Pitt’in oyuncu olarak son filmi nedir?” sorusuna sabit bir cevap gerektiren soru. ”, cevabı hızla değişebilir. Cevapların hepsi olmasa da çoğu Wikipedia’dan geliyor.

THE GitHub kodu projenin bir anlamına gelir Google E-Tablolar belgesi tüm FreshQA sorularını bir araya getiriyor. Kapsanan birden fazla tema hakkında fikir edinmek için sorulara göz atabilirsiniz. Örneğin, “Publishers Weekly’ye göre geçen yıl Amerika Birleşik Devletleri’nde hangi yazar en fazla roman sattı?” sorusundan yola çıkıyoruz. » (cevap Colleen Hoover) “Instagram’da takipçi sayısı 100 milyonu aşan kaç hesap var? » (38).

Yapay zekaya daha fazla meydan okumak için yanlış gerçekleri sunan yanıltıcı sorular da var. Örneğin: “İlk insan Mars’a hangi yılda indi?” »

Önemli iyileştirmeler

Google’ın LLM’si olan GPT-4 ve Pathways Dil Modeli (PaLM) de dahil olmak üzere test edilen başlıca dil modelleri (LLM’ler), beklendiği gibi FreshQA sorularıyla karşı karşıya kaldı. Ancak FreshPrompt’un yardımıyla sonuçlar önemli ölçüde iyileştirildi. Tu Vu ve ekibi, bu sonucun temel olarak LLM bilgilerinin güncellenmemesinden kaynaklandığını ve bu durumun bazen eskimiş yanıtlar ürettiğini belirtiyor. Üstelik birçoğu cevap vermeyi reddediyor.

Ekip, FreshPrompt’un eklenmesi olan GPT-4’te “FreshQA sorularına verilen yanıtların doğruluğunu önemli ölçüde artırdığını”, özellikle de bu tekniğin “halüsinasyonları ve güncel olmayan yanıtları önemli ölçüde azalttığını” söylüyor. 2022’den sonraki gerçeklerle ilgili sorularda sonuçlar arasındaki fark çok büyük: %8 doğruluktan %70,2’ye çıkıyoruz. Daha eski gerçekleri içeren tüm FreshQA sorularında, fark %28,6’dan %75,6’ya çıkarak dikkat çekici olmaya devam ediyor.

Yanlış gerçekler de dahil olmak üzere yanıltıcı sorular için de fark oldukça belirgin: FreshPrompt kullanıldığında GPT-4 %33,9’luk doğru cevaplardan %71’e çıktı. Elbette bu, vakaların neredeyse üçte birinde hala hataların olduğu anlamına geliyor.

Tu Vu ekibi ayrıca FreshPrompt’un, dil modellerini “artırmak” için arama motoru sorgularını da kullanan diğer aramalardan daha iyi performans gösterdiğini buldu. Bu, örneğin şunları içerir: Şaşkınlık.ai, GPT-3.5 ve Bing Arama’nın bir kombinasyonu. Tüm FreshQA soruları genelinde Perplexity’nin ortalama doğruluğu %52,2’dir – şanstan çok az daha iyidir – FreshPrompt’u kullanan GPT-4 ise %75,6’lık bir doğruluğa ulaştı.

Ekibin belirttiği önemli farklılıklar arasında FreshPrompt’ta internet araştırmasından elde edilen kanıtların sayısı da yer alıyor. Genel olarak, ne kadar çok madde doğru cevap için o kadar iyidir. “Sonuçlarımız, her soru için elde edilen kanıt sayısının, en yüksek doğruluğa ulaşmanın en önemli bileşeni olduğunu gösteriyor. »

Tu Vu ekibinin önünde hâlâ ciddi zorluklar var. Özellikle FreshPrompt’u sürekli güncellemek, yanıtların hâlâ geçerli olup olmadığını kontrol etmek anlamına gelir ve bu çok zaman alır. Ekip, özgür yazılım topluluğunun yardımcı olabileceğini veya güncellemenin üretken yapay zeka tarafından otomatikleştirilebileceğini umuyor. Ancak şimdilik FreshQA’yı güncel tutmaya kararlı.

Kaynak : ZDNet.com



genel-15