Google geçen hafta en son yapay zeka (AI) modeli Lumiere’yi tanıttı. Yeni AI modeli, 5 saniye uzunluğunda videolar oluşturabilen çok modlu bir video oluşturma aracıdır. Hem metinden videoya hem de görüntüden videoya oluşturmayı destekler ve Runway Gen-2 ve Pika 1.0 gibi mevcut yapay zeka modellerine katılır. Google’a göre Lumiere, bir AI videosunda hareketin nasıl oluştuğuna yenilik getiren ve videonun gerçekçi görünmesini sağlayan bir Uzay-Zaman U-Net (STUNet) mimarisini kullanıyor. Platform henüz halka açık değil.

Ekteki bir ön baskıda kağıtLumiere’in arkasındaki araştırma ekibi, hareketteki en büyük yeniliğin, sabit kareleri bir araya getirmek yerine videoyu tek bir süreçte oluşturmanın getirdiğini açıkladı. Bu nedenle, video üretiminin hem uzamsal (videodaki nesneler) hem de zamansal (işlerin videoda nasıl hareket ettiği) yönleri aynı anda yaratılmaktadır. Meslekten olmayan kişiler için bu, hareketlerin doğada meydana geldiği şekliyle algılanmasıyla sonuçlanır. Bunu başarmak için Lumiere, Stable Diffusion’ın 25 karesi yerine daha fazla sayıda 80 kare üretiyor.

“Hem mekansal hem de (önemlisi) zamansal aşağı ve yukarı örneklemeyi dağıtarak ve önceden eğitilmiş bir metinden görüntüye yayılma modelinden yararlanarak modelimiz, onu işleyerek doğrudan tam kare hızında, düşük çözünürlüklü bir video oluşturmayı öğreniyor. birden fazla uzay-zaman ölçeğinde,” diye ekledi makale.

Google Lumiere şu anda test edilemese de web sitesi canlı ve meraklılar, AI modeli kullanılarak oluşturulan çeşitli videoların yanı sıra çıktıyı oluşturmak için kullanılan metin istemi ve giriş görsellerini de kontrol edebilir. Ayrıca çeşitli tarzlarda videolar, kullanıcıların videonun belirli bir bölümünü canlandırmasına olanak tanıyan sinemagraflar ve maskelenmiş bir video veya görüntünün kullanıldığı ve yapay zekanın bunu istem doğrultusunda tamamladığı iç boyama işlemlerini de gerçekleştirebilir.

Google’ın en yeni yapay zeka video oluşturma aracı, Mart 2023’te piyasaya sürülen Runway Gen-2 ve Pika Lab’ın Pika 1.0’ı gibi her ikisi de halka açık olan mevcut yapay zeka modelleriyle rekabet ediyor. Pika, 3 saniye uzunluğunda videolar oluşturabilirken (bu süre 4 saniye daha artırılabilir), Runway ise 4 saniyeye kadar uzunlukta videolar oluşturabiliyor. Her iki model de çok modludur ve video düzenlemeye de olanak tanır.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.



genel-8