Google’ın yeni video nesli yapay zeka modeli Lumiere bir kullanır yeni yayılma modeli adı verildi Uzay-Zaman-U-Net veya STUNet, bir videodaki nesnelerin nerede olduğunu (uzay) ve aynı anda nasıl hareket edip değiştiklerini (zaman) çözer. Ars Teknik Bu yöntemin, Lumiere’nin daha küçük sabit kareleri bir araya getirmek yerine videoyu tek bir işlemde oluşturmasına olanak tanıdığını bildiriyor.

Lumiere, istemden bir temel çerçeve oluşturmakla başlar. Daha sonra STUNet çerçevesini kullanarak, birbirine akan daha fazla kare oluşturmak ve kesintisiz hareket görünümü yaratmak amacıyla o çerçeve içindeki nesnelerin nereye hareket edeceğini tahmin etmeye başlar. Lumiere ayrıca Stable Video Diffusion’daki 25 kareye kıyasla 80 kare üretiyor.

Kuşkusuz ben bir video uzmanından çok bir metin muhabiriyim, ancak Google’ın yayınladığı cızırtılı makara, ön baskı bilimsel bir makaleyle birlikte, AI video oluşturma ve düzenleme araçlarının tekinsiz vadiden sadece birkaç dakika içinde neredeyse gerçekçi hale geldiğini gösteriyor. yıllar. Ayrıca Google’ın teknolojisini Runway, Stable Video Diffusion veya Meta’s Emu gibi rakiplerin halihazırda işgal ettiği alanda da oluşturuyor. Kitlesel pazara sunulan ilk metinden videoya platformlardan biri olan Runway, geçen yıl Mart ayında Runway Gen-2’yi piyasaya sürdü ve daha gerçekçi görünümlü videolar sunmaya başladı. Podyum videoları da hareketi tasvir etmekte zorlanır.

Google, Lumiere sitesine klipler ve istemler koyma nezaketini gösterdi; bu da karşılaştırma için aynı istemleri Runway’e koymama olanak sağladı. Sonuçlar burada:

Evet, özellikle cilt dokusuna yakından baktığınızda veya sahne daha atmosferikse, sunulan kliplerden bazılarında bir miktar yapaylık var. Ancak Şu kaplumbağaya bak! Bir kaplumbağanın suda yaptığı gibi hareket ediyor! Gerçek bir kaplumbağaya benziyor! Lumiere tanıtım videosunu profesyonel video editörü olan bir arkadaşıma gönderdim. “Bunun tamamen gerçek olmadığını açıkça anlayabilirsiniz” diye belirtirken, eğer ona yapay zeka olduğunu söylemeseydim bunun CGI olduğunu düşünmesinin etkileyici olduğunu düşündü. (Ayrıca şunu da söyledi: “Bu benim işimi alacak, değil mi?”)

Diğer modeller, hareketin zaten gerçekleştiği, oluşturulmuş anahtar karelerden videoları bir araya getirir (bir flip kitaptaki çizimleri düşünün), STUNet ise Lumiere’in, oluşturulan içeriğin videoda belirli bir zamanda nerede olması gerektiğine bağlı olarak hareketin kendisine odaklanmasını sağlar.

Google, metinden videoya kategorisinde büyük bir oyuncu olmadı, ancak yavaş yavaş daha gelişmiş AI modellerini piyasaya sürdü ve daha çok modlu bir odaklanmaya yöneldi. Gemini geniş dil modeli, sonunda Bard’a görüntü oluşturmayı getirecek. Lumiere henüz test için mevcut değil, ancak Google’ın Runway ve Pika gibi genel olarak mevcut AI video oluşturucularla karşılaştırılabilecek ve muhtemelen biraz daha iyi bir AI video platformu geliştirme yeteneğini gösteriyor. Ve bir hatırlatma: Google, iki yıl önce yapay zeka videosuyla bu noktadaydı.

2022’den Google Imagen klibi
Resim: Google

Lumiere, metinden videoya dönüştürmenin ötesinde, görüntüden videoya dönüştürmeye, kullanıcıların belirli bir tarzda videolar yapmasına olanak tanıyan stilize oluşturmaya, videonun yalnızca bir bölümünü canlandıran sinemagraflara ve bir alanı maskelemek için iç boyamaya da olanak tanıyacak. Videonun rengini veya desenini değiştirmek için.

Ancak Google’ın Lumiere belgesinde şu ifadelere yer verildi: “Teknolojimizle sahte veya zararlı içerik oluşturmanın kötüye kullanım riski vardır ve güvenli ve adil bir ortam sağlamak için önyargıları ve kötü niyetli kullanım örneklerini tespit etmeye yönelik araçlar geliştirmenin ve uygulamanın çok önemli olduğuna inanıyoruz. kullanmak.” Makalenin yazarları bunun nasıl başarılabileceğini açıklamadı.



genel-2