Meta’nın Make-A-Video’su tarafından geride bırakılmaması gereken Google, bugün çalışmalarını şu şekilde detaylandırdı: Görüntü Videosu, bir metin istemiyle video klipler oluşturabilen bir AI sistemi (örneğin, “bulaşık yıkayan bir oyuncak ayı”). Sonuçlar mükemmel olmasa da (sistemin oluşturduğu döngüsel klipler yapaylık ve gürültüye sahip olma eğilimindedir) Google, Imagen Video’nun “yüksek derecede kontrol edilebilirliğe” ve görüntü oluşturma yeteneği de dahil olmak üzere dünya bilgisine sahip bir sisteme doğru bir adım olduğunu iddia ediyor. bir dizi sanatsal stilde.

Meslektaşım Devin Coldewey Make-A-Video hakkındaki yazısında belirttiği gibi, metinden videoya sistemler yeni değil. Bu yılın başlarında, Tsinghua Üniversitesi’nden ve Pekin Yapay Zeka Akademisi’nden bir grup araştırmacı, metni oldukça yüksek doğrulukta kısa kliplere çevirebilen CogVideo’yu yayınladı. Ancak Imagen Video, mevcut sistemlerin anlamakta güçlük çekeceği altyazıları canlandırmak için bir yetenek göstererek, önceki son teknolojiye göre önemli bir sıçrama gibi görünüyor.

Alberta Üniversitesi’nde yapay zeka ve makine öğrenimi üzerine çalışan yardımcı doçent Matthew Guzdial, TechCrunch’a e-posta yoluyla “Bu kesinlikle bir gelişme” dedi. “Video örneklerinden de görebileceğiniz gibi, iletişim ekibi en iyi çıktıları seçiyor olsa da hala garip bir bulanıklık ve yapaylık var. Yani bu kesinlikle yakın zamanda doğrudan animasyonda veya TV’de kullanılmayacak. Ancak o veya buna benzer bir şey, bazı şeyleri hızlandırmaya yardımcı olacak araçlara kesinlikle yerleştirilebilir.”

Google Görsel Videosu

Resim Kredisi: Google

Google Görsel Videosu

Resim Kredisi: Google

Imagen Video, OpenAI’nin DALL-E 2 ve Kararlı Difüzyonu ile karşılaştırılabilir bir görüntü oluşturma sistemi olan Google’ın Imagen’i üzerine kuruludur. Imagen, mevcut birçok veri örneğini nasıl “yok edeceğini” ve “kurtaracağını” öğrenerek yeni veriler (örn. videolar) üreten “yayılma” modeli olarak bilinen şeydir. Model, mevcut örnekleri besledikçe, yeni işler yaratmak için daha önce yok ettiği verileri kurtarma konusunda daha iyi hale geliyor.

Google Görsel Videosu

Resim Kredisi: Google

Imagen Video’nun arkasındaki Google araştırma ekibinin açıkladığı gibi kağıt, sistem bir metin açıklaması alır ve 24 x 48 piksel çözünürlükte 16 karelik, saniyede üç karelik bir video oluşturur. Ardından, sistem ek kareleri yükseltir ve “tahmin eder”, 720p’de (1280×768) son 128 kare, saniyede 24 kare video üretir.

Google Görsel Videosu

Resim Kredisi: Google

Google Görsel Videosu

Resim Kredisi: Google

Google, Imagen Video’nun 14 milyon video-metin çifti ve 60 milyon resim-metin çiftinin yanı sıra halka açık LAION-400M resim-metin veri seti üzerinde eğitildiğini ve bunun bir dizi estetiğe genelleştirilmesini sağladığını söylüyor. Deneylerde, Imagen Video’nun Van Gogh resimleri ve sulu boya tarzında videolar oluşturabildiğini buldular. Belki daha etkileyici bir şekilde, Imagen Video’nun derinlik ve üç boyutluluk anlayışını gösterdiğini, etrafında dönen ve nesneleri bozmadan farklı açılardan yakalayan drone geçişleri gibi videolar oluşturmasına izin verdiğini iddia ediyorlar.

Imagen Video, günümüzde mevcut olan görüntü oluşturma sistemlerine göre büyük bir gelişme olarak, metni düzgün bir şekilde de işleyebilir. Hem Stabil Diffusion hem de DALL-E 2, “’Diffusion’ için bir logo” gibi komutları okunabilir türe çevirmek için mücadele ederken, Imagen Video, en azından kağıda bakılırsa, sorunsuz bir şekilde işler.

Bu, Imagen Video’nun sınırsız olduğu anlamına gelmez. Make-A-Video’da olduğu gibi, Imagen Video’dan seçilen klipler bile, Guzdial’in ima ettiği gibi, fiziksel olarak doğal olmayan – ve imkansız – şekillerde birbirine karışan nesnelerle titrek ve kısmen bozuk. Araştırmacılar ayrıca, sistemi eğitmek için kullanılan verilerin, Imagen Video’nun grafik olarak şiddet içeren veya müstehcen klipler üretmesine neden olabilecek sorunlu içerik içerdiğini; Google, “bu endişeler giderilene kadar” Imagen Video modelini veya kaynak kodunu yayınlamayacağını söyledi.

Yine de, hızlı bir klipte ilerleyen metinden videoya teknolojisiyle, açık kaynaklı bir modelin ortaya çıkması uzun sürmeyebilir – hem yaratıcılığı güçlendiriyor hem de derin sahtekarlıklar ve yanlış bilgilerle ilgili olduğu yerlerde zorlu bir meydan okuma sunuyor.



genel-24