Google, sonsuz sayıda 2D platform video oyunu yaratabilen başka bir üretken yapay zeka (AI) modelini tanıttı. Genie, denetlenmeyen video oyunu verileriyle eğitilmiş, aksiyonla kontrol edilebilen bir dünya modeli olarak lanse ediliyor. Video oyunu seviyeleri oluşturmak için tahmine dayalı analiz kullanır ve ayrıca oynanabilir bir karakteri kontrol edebilir ve hareketlerini belirleyebilir. İlginç bir şekilde OpenAI, bu ayın başlarında Sora adında, bir dakikaya kadar uzunlukta hiper gerçekçi videolar oluşturabilen bir dünya modelini de tanıttı.
Duyuru, Google DeepMind Açık Uçluluk Ekip Lideri Tim Rocktäschel tarafından bir dizi etkinlik aracılığıyla yapıldı. gönderiler X’te (eski adıyla Twitter). Şöyle dedi: “Görüntü istemleri verilen, sonsuz çeşitlilikte aksiyonla kontrol edilebilen 2 boyutlu dünyalar oluşturabilen, yalnızca İnternet videolarından eğitilmiş bir temel dünya modeli olan Genie’yi tanıtıyoruz.” Genie, yalnızca belirli bir şeyi üretebilmesi açısından benzersizdir ve aynı zamanda şu ana kadar kamuya duyurulan tek video oyunu oluşturma modelidir.
Google’ın Genie AI modeli henüz halka açık değil ve şimdilik yalnızca bir araştırma modeli olarak varlığını sürdürüyor. Bu nedenle kullanıcı odaklı işlevleri henüz bilinmemektedir. Görüntüleri kullanarak video oyunu seviyeleri oluşturabilir, ancak metin istemlerini veya hatta video istemlerini alıp alamayacağı bilinmiyor. Makalenin ön baskı versiyonu gönderildi teknik yönlerini vurgulayan çevrimiçi. Yapay zeka modeli, 2.00.000 saatlik video oyunu görüntüleri üzerinde denetimsiz olarak eğitildi ve 11 milyar parametre içeriyor. Modelin mimarisi üç farklı parça kullanıyor: uzay-zamansal video tokenizer, otoregresif dinamik model ve basit ve ölçeklenebilir bir gizli eylem modeli.
Google Genie Nasıl Çalışır?
Basitleştirmek gerekirse, uzay-zamansal video belirteç, video oyunu görüntülerini alır ve bunları temel model tarafından tüketilebilecek, belirteçler olarak bilinen daha küçük veri kümesi parçalarına ayırır. Spatiotemporal, verilerin hem zamana hem de mekana göre bölündüğünü açıklıyor (Örneğin, bir video 2 saniyelik kliplere bölündü, ancak her kare aynı zamanda birden fazla parçaya da bölündü).
Daha sonra otoregresif dinamik model gelir. Otoregresif modeller esas olarak bir şeyin geçmişte nasıl performans gösterdiğine dayalı olarak geleceği tahmin eder ve dinamik bir model, işlerin zaman içinde nasıl değiştiğini ve hareket ettiğini anlamaktan sorumludur. Yani bu bölüm, tahmine dayalı analizin başladığı yerdir. Son bileşen ise gizli eylem modelidir. Yapay zekanın, oynanabilir karakterin video oyunu dünyasında nasıl hareket ettiğini ve hareket ettiğini anladığı yer burasıdır.
“Genie’nin öğrenilmiş gizli eylem alanı yalnızca çeşitli ve tutarlı değil, aynı zamanda yorumlanabilir. Rocktäschel, “Birkaç dönüşten sonra insanlar genellikle anlamsal olarak anlamlı eylemlerin (sola, sağa gitmek, zıplamak vb.) haritasını çıkarıyor” dedi. Bu bölüm önemlidir çünkü bu yapay zeka modelinin çözdüğü temel sorunun yalnızca 2 boyutlu video oyunu seviyeleri oluşturmak olmadığını, aynı zamanda temel hareketlerin nasıl gerçekleştiğini ve bu bilgilerin gerçek dünyadaki arazilerde gezinmek için nasıl kullanılabileceğini anlamak olduğunu vurgulamaktadır.
Bunu vurgulayarak şunları söyledi: katma, “Genie’nin modeli geneldir ve 2B ile sınırlı değildir. Ayrıca bir Genie’yi eylemsiz robotik verileri (RT-1) konusunda eğitiyoruz ve orada da eylemle kontrol edilebilen bir simülatörü öğrenebileceğimizi gösteriyoruz. Bunun YGZ için genel dünya modellerine doğru umut verici bir adım olduğunu düşünüyoruz.”
Barselona’daki Mobil Dünya Kongresi’nde Samsung, Xiaomi, Realme, OnePlus, Oppo ve diğer şirketlerin en son lansmanları ve haberlerinin ayrıntıları için MWC 2024 merkezimizi ziyaret edin.