Google en yeni yapay zeka modelini başlattı. Lumiere adı verilen çok modlu video oluşturma aracı, yalnızca metin veya hareketsiz görüntüleri istem olarak kullanarak 5 saniye uzunluğunda gerçekçi videolar üretme kapasitesine sahip.

Google, OpenAI’nin yapay zeka üzerindeki hakimiyetine meydan okuyabilecek bir konuma geliyor.

Google 5 saniyelik gerçekçi videolar üretebilen multimodal video oluşturma aracı olan en yeni yapay zeka modeli Lumiere’yi tanıttı.

Lumiere, yapay zeka tarafından oluşturulan videolarda hareketin gerçekçiliğini geliştirmek için Space-Time U-Net (STUNet) mimarisini kullanarak hem metinden videoya hem de görüntüden videoya oluşturmayı destekler.

İlgili Makaleler

AI haberleri

Instagram’ın kurucu ortakları tarafından desteklenen AI haber uygulaması Artifact, lansmanından sonraki 1 yıl içinde dükkanını kapatmak zorunda kaldı

AI haberleri

ChatGPT, Saldırı! OpenAI, ABD silahlı kuvvetleriyle çalışıyor ve onlar için siber güvenlik araçları üretiyor

Runway Gen-2 ve Pika 1.0 gibi mevcut modellerin aksine Lumiere henüz kamuoyuna açıklanmadı.

Yayınla birlikte gelen bir ön baskı makalesine göre Lumiere’in yeniliği, sabit kareleri birleştirmek yerine tüm videoyu tek bir süreçte oluşturmasında yatıyor.

Bu yaklaşım, hem uzamsal (videodaki nesneler) hem de zamansal (video içindeki hareket) yönlerin eşzamanlı olarak oluşturulmasına olanak tanır ve bu da hareketin daha doğal algılanmasıyla sonuçlanır.

Lumiere, Stable Diffusion’ın 25 karesine kıyasla 80 kare üretiyor; uzaysal ve zamansal aşağı ve yukarı örneklemeyi kullanıyor ve önceden eğitilmiş bir metinden görüntüye yayılma modelinden yararlanıyor.

Lumiere test için mevcut olmasa da web sitesi, AI modeli kullanılarak oluşturulan çeşitli videoları, ilgili metin istemleri ve giriş görselleriyle birlikte sergiliyor.

Araç, farklı tarzlarda videolar üretebilir, belirli video parçalarını canlandırmak için sinemagraflar oluşturabilir ve istemlere göre maskelenmiş videoları veya görüntüleri tamamlayarak iç boyama gerçekleştirebilir.

Google’ın Lumiere’si, her ikisi de halka açık olan Runway Gen-2 (Mart 2023’te piyasaya sürüldü) ve Pika Lab’ın Pika 1.0’ı gibi mevcut yapay zeka modelleriyle rekabet ediyor.

Pika, 3 saniye uzunluğunda videolar (4 saniyeye kadar uzatılabilir) oluşturabilirken, Runway, 4 saniyeye kadar uzunlukta videolar oluşturabilir. Her iki model de çok modlu yetenekler sunar ve video düzenlemeyi destekler.

(Kurumlardan gelen girdilerle)



genel-5