Google’ın yapay zeka araştırma kuruluşu DeepMind, bir açıklama yaptı modeli Bu, “sonsuz” çeşitlilikte oynanabilir 3D dünyalar üretebilir.
Genie 2 olarak adlandırılan bu yılın başlarında piyasaya sürülen DeepMind Genie’nin halefi olan model, tek bir görüntü ve metin açıklamasından (örneğin “Ormanda sevimli bir insansı robot”) etkileşimli, gerçek zamanlı bir sahne oluşturabiliyor. Bu yönüyle Fei-Fei Li’nin şirketi, World Labs ve İsrailli startup Decart tarafından geliştirilmekte olan modellere benziyor.
DeepMind, Genie 2’nin, kullanıcıların bir fare veya klavye kullanarak atlama ve yüzme gibi eylemler gerçekleştirebileceği dünyalar da dahil olmak üzere “çok çeşitli zengin 3D dünyalar” oluşturabileceğini iddia ediyor. Videolar üzerinde eğitim alan model, nesne etkileşimlerini, animasyonları, aydınlatmayı, fiziği, yansımaları ve “NPC’lerin” davranışlarını simüle edebiliyor.
Genie 2’nin simülasyonlarının çoğu AAA video oyunlarına benziyor ve bunun nedeni, modelin eğitim verilerinin popüler oyunların oynanışlarını içermesi olabilir. Ancak birçok yapay zeka laboratuvarı gibi DeepMind da rekabetçi nedenlerden veya başka sebeplerden dolayı veri kaynak sağlama yöntemleriyle ilgili pek fazla ayrıntıyı açıklamıyor.
IP’nin etkileri merak ediliyor. Bir Google yan kuruluşu olan DeepMind, YouTube’a sınırsız erişime sahip ve Google daha önce Hizmet Şartları’nın kendisine YouTube videolarını model eğitimi için kullanma izni verdiğini ima etmişti. Peki Genie 2 temelde “izlediği” video oyunlarının izinsiz kopyalarını mı oluşturuyor? Buna mahkemeler karar verecek.
DeepMind, Genie 2’nin, birinci şahıs ve izometrik görüşler gibi farklı perspektiflere sahip, çoğunluğu 10-20 saniye süren, bir dakikaya kadar tutarlı dünyalar oluşturabildiğini söylüyor.
DeepMind bir blog yazısında şöyle yazdı: “Genie 2, klavyedeki tuşlara basılarak gerçekleştirilen eylemlere akıllıca yanıt veriyor, karakteri tanımlıyor ve onu doğru şekilde hareket ettiriyor.” “Örneğin bizim modelimiz [can] Ok tuşlarının ağaçları veya bulutları değil, robotu hareket ettirmesi gerektiğini anlayın.”
Genie 2 gibi modellerin çoğu – dünya modelleri de diyebiliriz – oyunları ve 3 boyutlu ortamları simüle edebilir, ancak artefakt, tutarlılık ve halüsinasyonla ilgili sorunları vardır. Örneğin, Decart’ın Minecraft simülatörü Oasis’in çözünürlüğü düşüktür ve seviyelerin düzenini hızla “unutur”.
Ancak DeepMind, Genie 2’nin simüle edilmiş bir sahnenin görünürde olmayan kısımlarını hatırlayabildiğini ve tekrar görünür hale geldiklerinde bunları doğru bir şekilde oluşturabildiğini söylüyor. (World Labs’ın modelleri de bunu yapabilir.)
Şimdi, Genie 2 ile oluşturulan oyunlar, ilerlemenizi her dakika silecekleri göz önüne alındığında, o kadar da eğlenceli olmaz. İşte bu nedenle DeepMind, modeli daha çok bir araştırma ve yaratıcı araç olarak konumlandırıyor; “etkileşimli deneyimlerin” prototipini oluşturmaya ve yapay zeka aracılarını değerlendirmeye yönelik bir araç.
DeepMind, “Genie 2’nin dağıtım dışı genelleme yetenekleri sayesinde konsept çizimleri ve çizimler tamamen etkileşimli ortamlara dönüştürülebilir” diye yazdı. “Araştırmacılarımız, AI temsilcileri için hızlı bir şekilde zengin ve çeşitli ortamlar oluşturmak amacıyla Genie 2’yi kullanarak, temsilcilerin eğitim sırasında görmediği değerlendirme görevlerini oluşturabiliyor.”
DeepMind, Genie 2 henüz başlangıç aşamasında olsa da laboratuvarın bunun geleceğin yapay zeka ajanlarını geliştirmede önemli bir bileşen olacağına inandığını söylüyor.
Google, üretken yapay zekada bir sonraki büyük adım olmayı vaat eden dünya modeli araştırmalarına giderek daha fazla kaynak ayırıyor. Ekim ayında DeepMind, video oluşturma teknolojileri ve dünya simülatörleri üzerinde çalışması için OpenAI’nin Sora video oluşturucusunun geliştirilmesinden sorumlu olan Tim Brooks’u işe aldı. Ve iki yıl önce laboratuvar, “açık uçlu”luğuyla tanınan Tim Rocktäschel’i kaçırdı. deneyler Meta’dan Nethack gibi video oyunlarıyla.