Dünya simülatörleri olarak da bilinen dünya modelleri, bazıları tarafından yapay zekanın bir sonraki büyük adımı olarak lanse ediliyor.

Yapay zeka öncüsü Fei-Fei Li’nin Dünya Laboratuvarları, “büyük dünya modelleri” oluşturmak için 230 milyon dolar topladı ve DeepMind, “dünya simülatörleri” üzerinde çalışması için OpenAI video oluşturucusunun yaratıcılarından biri olan Sora’yı işe aldı. (Sora Pazartesi günü serbest bırakıldı; işte bazı ilk izlenimler.)

Ama ne halt öyle bunlar mı?

Dünya modelleri, insanların doğal olarak geliştirdiği dünyanın zihinsel modellerinden ilham alır. Beynimiz, duyularımızdan gelen soyut temsilleri alıp onları çevremizdeki dünyayı daha somut bir şekilde anlayacak şekilde şekillendiriyor ve yapay zekanın bu ifadeyi benimsemesinden çok önce “modeller” dediğimiz şeyleri üretiyor. Beynimizin bu modellere dayanarak yaptığı tahminler dünyayı nasıl algıladığımızı etkiler.

A kağıt Yapay zeka araştırmacıları David Ha ve Jürgen Schmidhuber, beyzbol vuruşunun örneğini veriyor. Vurucuların sopalarını nasıl sallayacaklarına karar vermek için milisaniyeleri vardır; bu, görsel sinyallerin beyne ulaşması için gereken süreden daha kısadır. Ha ve Schmidhuber, saatte 160 kilometre hızla top atabilmelerinin nedeninin topun nereye gideceğini içgüdüsel olarak tahmin edebilmeleri olduğunu söylüyor.

Araştırma ikilisi, “Profesyonel oyuncular için bunların hepsi bilinçaltında gerçekleşir” diye yazıyor. “Kasları, iç modellerinin tahminleri doğrultusunda, refleks olarak sopayı doğru zamanda ve yerde sallıyor. Bir plan oluşturmak için olası gelecek senaryolarını bilinçli olarak ortaya koymaya ihtiyaç duymadan, geleceğe dair tahminlerine göre hızla hareket edebiliyorlar.”

Bazılarının insan düzeyindeki zekanın önkoşulları olduğuna inandığı şey, dünya modellerinin bu bilinçaltı muhakeme yönleridir.

Dünyayı modellemek

Konsept onlarca yıldır ortalıkta dolaşırken, dünya modelleri son zamanlarda kısmen üretken video alanındaki umut verici uygulamaları nedeniyle popülerlik kazandı.

Yapay zeka tarafından oluşturulan videoların hepsi olmasa da çoğu, esrarengiz vadi bölgelerine yöneliyor. Onları yeterince uzun izle ve bir şeyler tuhaf uzuvların bükülüp birbirine karışması gibi olacak.

Yıllarca süren videolarla eğitilen üretken bir model, bir basketbol topunun sıçradığını doğru bir şekilde tahmin edebilse de aslında bunun nedeni hakkında hiçbir fikri yok; tıpkı dil modellerinin kelimelerin ve ifadelerin ardındaki kavramları gerçekten anlamaması gibi. Ancak basketbolun neden bu şekilde sıçradığına dair temel bir kavrayışa sahip bir dünya modeli, ona bunu yaptığını göstermede daha iyi olacaktır.

Bu tür bir içgörüyü mümkün kılmak için dünya modelleri, dünyanın nasıl çalıştığına dair dahili temsiller ve eylemlerin sonuçları hakkında akıl yürütme yeteneği oluşturmak amacıyla fotoğraflar, ses, videolar ve metinler dahil olmak üzere bir dizi veri üzerinde eğitilir. .

Pist Gen-3
AI startup Runway’in Gen-3 video oluşturma modelinden bir örnek. Resim Kredisi:Pist

Snap’in eski yapay zeka şefi ve video için üretken modeller geliştiren Higgsfield’ın CEO’su Alex Mashrabov, “İzleyici, izlediği dünyanın kendi gerçekliğine benzer şekilde davranmasını bekliyor” dedi. “Örs ağırlığıyla bir tüy düşüyorsa ya da bir bowling topu yüzlerce metre havaya fırlıyorsa, bu sarsıcıdır ve izleyiciyi anın dışına çıkarır. Güçlü bir dünya modeliyle, her nesnenin nasıl hareket etmesinin beklendiğini tanımlayan bir yaratıcı yerine (ki bu sıkıcı, hantal ve zamanın kötü kullanılmasıdır) model bunu anlayacaktır.”

Ancak daha iyi video üretimi, dünya modelleri için buzdağının yalnızca görünen kısmıdır. Meta baş yapay zeka bilimcisi Yann LeCun’un da aralarında bulunduğu araştırmacılar, modellerin bir gün hem dijital hem de fiziksel alanda karmaşık tahmin ve planlama için kullanılabileceğini söylüyor.

Bu yılın başlarında yapılan bir konuşmada LeCun, bir dünya modelinin akıl yürütme yoluyla arzu edilen hedefe ulaşmaya nasıl yardımcı olabileceğini anlattı. Bir “dünya”nın temel temsiline sahip bir model (örneğin, kirli bir odanın videosu), kendisine bir hedef (temiz oda) verildiğinde, bu hedefe ulaşmak için bir dizi eylem ortaya çıkarabilir (süpürmek için vakum yerleştirmek, odayı temizlemek). bulaşıkları boşaltın, çöpü boşaltın) gözlemlediği bir model olduğu için değil, kirliden temize nasıl geçeceğini daha derin bir düzeyde bildiği için.

“Dünyayı anlayan makinelere ihtiyacımız var; [machines] LeCun, bir şeyleri hatırlayabilen, sezgiye sahip, sağduyuya sahip, yani insanlarla aynı seviyede mantık yürütebilen ve plan yapabilen şeyler olduğunu söyledi. “En hevesli insanlardan duymuş olabileceğiniz şeylere rağmen, mevcut yapay zeka sistemleri bunların hiçbirini yapamaz.”

LeCun, hayal ettiği dünya modellerinden en az on yıl uzakta olduğumuzu tahmin etse de, günümüzün dünya modelleri, temel fizik simülatörleri olarak umut vaat ediyor.

OpenAI Sora Minecraft
Sora, Minecraft’ta bir oyuncuyu kontrol ediyor ve dünyayı canlandırıyor. Resim Kredisi:OpenAI

OpenAI, bir blogda dünya modeli olarak gördüğü Sora’nın, bir ressamın tuval üzerine fırça darbeleri bırakması gibi eylemleri simüle edebildiğini belirtiyor. Sora ve Sora’nın kendisi gibi modeller de etkili bir şekilde kullanılabilir. benzetmek video oyunlar. Örneğin Sora, Minecraft benzeri bir kullanıcı arayüzü ve oyun dünyası oluşturabilir.

World Labs kurucu ortağı Justin Johnson, gelecekteki dünya modellerinin oyun, sanal fotoğrafçılık ve daha fazlası için talep üzerine 3 boyutlu dünyalar yaratabileceğini söyledi. bölüm a16z podcast’inden.

Johnson, “Zaten sanal, etkileşimli dünyalar yaratma yeteneğine sahibiz, ancak bu yüzlerce, yüz milyonlarca dolara ve bir ton geliştirme süresine mal oluyor” dedi. “[World models] yalnızca bir görüntü veya klip çıkarmanıza değil, aynı zamanda tamamen simüle edilmiş, canlı ve etkileşimli bir 3D dünyaya da sahip olmanızı sağlayacak.”

Yüksek engeller

Konsept cazip olsa da, birçok teknik zorluk önümüzde duruyor.

Dünya modellerini eğitmek ve çalıştırmak, şu anda üretken modellerin kullandığı miktarla karşılaştırıldığında bile çok büyük bilgi işlem gücü gerektirir. En yeni dil modellerinden bazıları modern bir akıllı telefonda çalışabilse de, Sora’nın (muhtemelen ilk dünya modeli) eğitilmesi ve çalıştırılması için binlerce GPU’ya ihtiyaç duyulacaktır, özellikle de bunların kullanımı yaygınlaşırsa.

Tüm yapay zeka modelleri gibi dünya modelleri de halüsinasyon görüyor ve eğitim verilerindeki önyargıları içselleştiriyor. Büyük ölçüde Avrupa şehirlerindeki güneşli havaları gösteren videolarla eğitilmiş bir dünya modeli, örneğin Kore şehirlerini karlı koşullarda anlamakta veya tasvir etmekte zorlanabilir veya bunu yanlış yapabilir.

Mashrabov, genel olarak eğitim verilerinin eksikliğinin bu sorunları daha da kötüleştirme tehlikesi taşıdığını söylüyor.

“Modellerin belirli bir tür veya ırktan nesillerle gerçekten sınırlı olduğunu gördük” dedi. “Bir dünya modeli için eğitim verileri, çeşitli senaryoları kapsayacak kadar geniş olmalı, aynı zamanda yapay zekanın bu senaryoların nüanslarını derinlemesine anlayabildiği yere de son derece spesifik olmalıdır.”

yakın zamanda postalamakAI startup Runway’in CEO’su Cristóbal Valenzuela, veri ve mühendislik sorunlarının günümüz modellerinin dünya sakinlerinin (örneğin insanlar ve hayvanlar) davranışlarını doğru bir şekilde yakalamasını engellediğini söylüyor. “Modellerin çevrenin tutarlı haritalarını oluşturması ve bu ortamlarda gezinme ve etkileşim kurma becerisine sahip olması gerekecek” dedi.

OpenAI Sora
Sora tarafından oluşturulan bir video. Resim Kredisi:OpenAI

Mashrabov, tüm büyük engellerin aşılması halinde dünya modellerinin yapay zeka ile gerçek dünya arasında “daha sağlam” bir köprü kurabileceğine inanıyor; bu da yalnızca sanal dünya oluşturmada değil, robotik ve yapay zeka karar alma süreçlerinde de çığır açıcı gelişmelere yol açacak.

Ayrıca daha yetenekli robotlar üretebilirler.

Günümüzde robotların yapabilecekleri sınırlıdır çünkü etraflarındaki dünyaya (veya kendi bedenlerine) dair bir farkındalığa sahip değillerdir. Mashrabov, dünya modellerinin onlara en azından bir noktaya kadar bu farkındalığı verebileceğini söyledi.

“Gelişmiş bir dünya modeliyle bir yapay zeka, hangi senaryoya yerleştirildiğine dair kişisel bir anlayış geliştirebilir ve olası çözümleri düşünmeye başlayabilir” dedi.

TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.



genel-24