Google’ın AVIS programı, bir fotoğraftaki bir nesneyi tanımlamak ve ardından bu nesne hakkında bilgi bulmak gibi atılacak bir dizi adımı dinamik olarak seçebilir. UCLA, Google

Yapay zeka programları sorgudan bağımsız olarak yanıt üretebilme yetenekleriyle göz kamaştırıyor. Bununla birlikte, ChatGPT gibi programlar, konuyla ilgili herhangi bir özel bilgi olmadan yalnızca metin girişlerine yanıt verdiğinden ve bu nedenle yanlış yanıtlar üretebildiğinden, yanıtın kalitesi çoğu zaman arzu edilen bir şey bırakmaz.

Kaliforniya Üniversitesi ve Google’ın yakın tarihli bir araştırma projesi, Chat-GPT gibi büyük dil modellerinin (LLM’ler), daha sonra birkaç adımda bir cevap arayabilen belirli bir aracı (ister bir web araması ister optik karakter tanıma olsun) seçmesine olanak tanır. başka bir kaynaktan.

“Planlama” ve “akıl”ın ilkel bir biçimi

Sonuç, bir programın herhangi bir zamanda bir soruya nasıl yaklaşılması gerektiğini ve bir kez ele alındığında çözümün tatmin edici olup olmadığını belirlemesine yönelik bir araç olan “planlama” ve “akıl”ın ilkel bir biçimidir.

AVIS (“Büyük Dil Modelleri ile Otonom Görsel Bilgi Arama” için) adı verilen bu projenin detayı şöyle: arXiv’de yayınlandı. AVIS, Google’ın Pathways Dil Modelini veya üretken yapay zekadaki çeşitli yaklaşım ve deneyimlere uygun birden fazla sürümün ortaya çıkmasına neden olan büyük bir dil modeli olan PaLM’yi temel alır.

AVIS, makine öğrenimi programlarını, eylemleri bir sonraki kelimenin basit tahmininden daha geniş olan “aracılara” dönüştürmeyi amaçlayan son araştırma geleneğini sürdürmektedir. Bunlar arasında özellikle BebekAGIBu yıl tanıtılan “Yapay Zeka destekli görev yönetim sistemi” ve PaLM*E, bu yıl sunuldu Bir robota fiziksel uzayda bir dizi eylemi takip etmesi talimatını verebilen Google araştırmacıları tarafından.

Önceden belirlenmiş bir eylem planı yok

AVIS programının en büyük avantajı, BabyAGI ve PaLM*E’den farklı olarak önceden belirlenmiş bir eylem planını takip etmemesidir. Bunun yerine, durum ortaya çıktıkça anında bir dizi eylem seçeneğini seçen “planlayıcı” adı verilen bir algoritma kullanır. Bu seçimler, dil modelinin istenen metni değerlendirmesi, onu alt sorulara ayırması ve ardından bu alt soruları bir dizi olası eylemle ilişkilendirmesiyle oluşturulur.

Hisse senedi toplama bile yeni bir yaklaşımdır.

Araştırmacılar, “Böceğin adı nedir?” gibi aynı türden soruları yanıtlayan 10 kişiyle bir anket gerçekleştirdiler. bir görselde gösterilmiştir. Google Görsel Arama gibi araç seçimleri kaydedildi.

Mantık yürütücünün kapasitesi

Yazarlar daha sonra insan tercihlerine ilişkin bu örnekleri, insanların her an araçları nasıl seçtiğini gösteren bir model olan “geçiş grafiği” adını verdikleri şeye entegre ettiler.


google-inceleme-iş akışı-2023


UCLA, Google

Planlayıcı daha sonra grafiği kullanarak “bağlamdaki ilgili örnekler” arasından seçim yapar. […] Bu, geçmiş örnekleri dil modeli için ek girdiler olarak kullanarak, programın kendini insan tercihleri ​​üzerine modellemesini sağlamanın bir yoludur.

Seçimlerini kontrol etmek için AVIS programında, orijinal soruya bir yanıt verilip verilmeyeceğine karar vermeden önce, dil modeli tarafından test edildikten sonra her aracın kullanışlılığını değerlendiren bir “akıl yürütücü” adı verilen ikinci bir algoritma bulunur. Belirli bir aracı seçmenin faydası olmadıysa, akıl yürüten kişi planlayıcıyı çizim tahtasına geri gönderir.


google-inceleme-model-mimari-2023


AVIS’in toplam iş akışı, soruları tasarlamak, araçları seçmek ve ardından aracın tatmin edici bir yanıt üretip üretmediğini kontrol etmek için akıl yürütmeyi kullanmaktır. UCLA, Google

Araştırmacılar AVIS’i OK-VQA gibi bazı standart otomatik görsel soru yanıt kıyaslama testlerinde test etti. 2019’da tanıtıldı Carnegie Mellon Üniversitesi’ndeki araştırmacılar tarafından. Bu testte AVIS’in “bu veri seti için uygun mevcut yöntemlerin çoğundan daha yüksek olan 60,2’lik bir doğruluk” elde ettiğini bildiriyorlar. Başka bir deyişle, buradaki genel yaklaşım, yapay zeka makine öğreniminin artan genelliğine bir örnek olarak, belirli bir göreve dikkatlice uyarlanmış yöntemlerden daha iyi performans gösteriyor gibi görünüyor.

Sonuç olarak araştırmacılar gelecekteki çalışmalarında imaj konularının ötesine geçmeyi planladıklarını vurguluyor. “Yüksek Lisans destekli dinamik karar verme çerçevemizi diğer akıl yürütme görevlerine genişletmek istiyoruz” diye yazıyorlar.


Kaynak : “ZDNet.com”



genel-15