Nvidia’nın Voyager’ının oyunun teknoloji ağacında ilerleyen diğer otomatik ajanlarla karşılaştırılması: Program, yeni görevleri tamamlamada önemli ölçüde daha hızlıdır ve şu ana kadar Minecraft’ta çok değerli elmas araçları seviye açabilen tek otomatik ajandır. Grafiğin altındaki sayılar, programlar için yineleme sayısını temsil eder. Guanzhi Wang ve diğerleri
Satrançtaki şah mat gibi, oyunun en zorlu görevlerinden biri olan Minecraft video oyununda bir elmas aleti yapma yeteneği, yapay zeka için sıradan hale geliyor.
AI programları, Minecraft’ı insan müdahalesi olmadan oynamak için zaten geliştirilmiştir. Örneğin, ChatGPT’nin yaratıcısı OpenAI, oyuncu hareketlerini taklit ederek oyunu oynayabilecek bir yapay zeka geliştirmek için video çekimleri yapmak üzere insan oyuncuları işe almak için büyük miktarda para harcadı.
Pekin Üniversitesi’nden Zihao Wang liderliğindeki bir ekip, Şubatta bu “Minecraft’ta 70’ten fazla görevi yerine getirebilen ilk çoklu görev aracı”.
Ancak teknolojinin durumu hızla değişiyor. Mayıs ayının sonunda Nvidia’daki bir ekip, farklı teknikleri deneyerek ve ardından başarılarını bir teknik kitaplığına kaydederek oyun yaklaşımını geliştiren ilk “sürekli öğrenme aracısını” geliştirdiğini söyledi. Ve diğer otomatik sistemlerle karşılaştırıldığında, bu teknoloji Minecraft kilometre taşlarına daha hızlı ulaşır.
Voyager adlı program bir makalede anlatılıyor. arXiv ön baskı sunucusunda yayınlandı. Makale ve destekleyici belgeler Ayrıca Nvidia tarafından yayınlanan.
Voyager, ChatGPT’nin yaratıcısı OpenAI’nin “harika bir dil modeli” olan GPT-4’ü kullanıyor. GPT-4 Mart ayında tanıtıldı, ancak OpenAI programın teknik yönlerini açıklamayı reddetti. OpenAI’ye göre GPT-4’ün kodu, birçok görev için önceki sürümlerden ve diğer birçok büyük dil modelinden veya LLM’den daha iyidir. Ve bu görevlerin içinde, doğal dil zorluklarına yanıt verme ve kod yazma becerisi yer alır.
Bu nedenle GPT-4, Voyager’da çeşitli şekillerde kullanılır.
Yeni zorluklar önermek
İlki, Minecraft’ın araç envanterini almak ve onu Voyager programı için yeni bir meydan okuma sağlamak için kullanmaktır. Bunu yapmak için GPT-4’e envanterin bir açıklamasını doğal dilde sorarak ve analizi kolaylaştırmak için biçimlendirmeyle birlikte vermelisiniz, örneğin,
Envanter (5/36): ‘oak_planks’: 3, ‘stick’: 4, ‘crafting_table’: 1, ‘stone’: 3, ‘wooden_pickaxe’: 1,
GPT-4, taş kazma yapmak gibi yeni bir zorluğun doğal bir dille açıklanmasının yanı sıra bunun neden uygun yeni bir görev olduğunu açıklayan bir ifade de üretecektir, örneğin:
Gerekçe: Tahta bir kazmanız ve birkaç taşınız olduğundan, daha iyi verim için kazmanızı taş kazmaya yükseltmek faydalı olacaktır.
Görev: 1 Taş Kazma yap.
Minecraft’ta bir sonraki hamleyi gerçekleştirmek için kod oluşturun
GPT-4’ün Voyager’daki ikinci işlevi, bu yeni mücadeleyi kapmak ve Minecraft’ta bir sonraki hamleyi gerçekleştirmek için kod oluşturmaktır. GPT-4, Minecraft’ta çalışacak kodu yazar ve test eder. Geri bildirim daha sonra GPT-4’e geri gönderilir ve GPT-4 daha sonra yeni kod aracılığıyla rafine edilir.
GPT-4’ün program kodunda ince ayar yapabileceği iyi bilinmektedir. Çalışmanın yazarları, GPT-4 aracılığıyla kod/geri bildirim/yeniden kodlama döngüsü nedeniyle bu deneme yanılma sürecini “yinelemeli yönlendirme” olarak tanımlıyor. İkinci bir GPT-4 örneği, her buluşu kod üzerinde test etmek ve başarılı olup olmadığını belirlemek için gözden geçiren olarak kullanılır. Buna “kendi kendini doğrulama” denir.
Örneğin, ilk program kodu Minecraft’a akasya bitkisinden yapılmış bir “akasya baltası” yapma talimatını göndermekse, Minecraft’ta akasya baltası olmadığı için başarısız olur. Bu talimatın başarısızlığı, Voyager tarafından bir “çalışma zamanı hatası” olarak değerlendirilir ve program, Minecraft kodunu revize eder ve yeniden dener.
En ilginç kısım, Voyager’ın test ettiği işlevsel kod parçalarını depoladığı ve “beceriler” olarak adlandırılan kitaplık olarak adlandırılan şeyle ilgilidir.
GPT-4’ün bir cümledeki bir sonraki kelimeyi tahmin etmesi gibi, Voyager da gelecekteki eylemleri önermek için bu kitaplıktan yararlanabilir. GPT-4 bir “istek” ile başlar – “demir kazma yap” gibi bir şey – sonra kitaplıkta “anahtar” – yani bir becerinin saklanan açıklaması – arar ve sonuç olarak gerekli beceriyi alır, “değer” ” Bu sorgu-tuş kombinasyonu, bir veritabanındaki arama gibi.
Sözde ablasyon çalışmaları kullanılarak (ablasyon çalışmaları), yani programın bazı kısımlarını kaldırarak, Wang ve ekibi Voyager’ın ana unsurunun kendi kendini kontrol eden birim olduğunu keşfetti.
Oynarken bir insandan geri bildirim aldığında Voyager’ın nasıl daha karmaşık sonuçlar üretebileceğine dair örnekler Guanzhi Wang ve diğerleri.
“Kendi kendini doğrulama, Voyager’ın aldığı tüm geri bildirim türleri arasında en önemlisidir” diye yazıyorlar ve “kendi kendini doğrulamanın, yeni bir göreve ne zaman geçileceğine veya daha önce başarısız olan bir görevi yeniden deneyeceğine karar vermek için kritik bir mekanizma olarak hizmet ettiği” sonucuna varmak için yazıyorlar. .
Voyager diğer AI programlarıyla karşılaştırıldığında
Voyager’ı test etmek için yazarlar onu diğer AI programlarıyla karşılaştırdı.
Test ettikleri ve temellerini oluşturan programlar şunları içerir: MineDojoReAct (bir LLM’den problem çözmede “dinamik akıl yürütme” yapmasını isteyen bir Google yeniliği) ve bir sonraki eylemi otomatikleştiren bir GPT-4 uyarlaması olan AutoGPT, GitHub’da mevcutve tarafından geliştirildi Önemli Ağırlıklar.
Yazarlar, bu diğer yaklaşımlarla karşılaştırıldığında, Voyager’ın hedeflerine çok daha hızlı ulaştığını yazıyor. “Voyager’ın üstünlüğü, sürekli olarak yeni ilerleme kaydetme, 160 yinelemede 63 benzersiz öğe veya muadillerinden 3,3 kat daha fazla yeni öğe keşfetme yeteneğinde belirgindir” diye yazıyorlar. “Seyahat etmek, ahşap seviyesini 15,3 kat, taş seviyesini 8,5 kat ve demir seviyesini 6,4 kat daha hızlı açar”.
Ve “Teknoloji ağacının elmas seviyesini açan tek kişi Voyager”.
Kaynak : “ZDNet.com”