Artık ChatGPT ve Midjourney hemen hemen ana akım haline geldiğine göre, bir sonraki büyük yapay zeka yarışı metinden videoya oluşturucular ve Nvidia, GIF’lerinizi yakında yeni bir düzeye taşıyabilecek bazı etkileyici teknoloji demolarını gösterdi.
A yeni araştırma makalesi ve mikro site (yeni sekmede açılır) Nvidia’nın Toronto Yapay Zeka Laboratuvarı’ndan “Gizli Yayılma Modelleri ile Yüksek Çözünürlüklü Video Sentezi” adlı, bize sürekli büyüyen en iyi yapay zeka sanat üreteçleri listesine katılmak üzere olan inanılmaz video oluşturma araçlarının tadına bakmamızı sağlıyor.
Gizli Yayılma Modelleri (veya LDM’ler), büyük bilgi işlem gücüne ihtiyaç duymadan videolar oluşturabilen bir yapay zeka türüdür. Nvidia, teknolojisinin bunu, metinden görüntüye oluşturucuların, bu durumda Stable Difüzyon’un çalışmasını temel alarak ve “gizli alan difüzyon modeline geçici bir boyut” ekleyerek yaptığını söylüyor.
Başka bir deyişle, üretken yapay zekası, durağan görüntülerin gerçekçi bir şekilde hareket etmesini sağlayabilir ve onları süper çözünürlük teknikleri kullanarak yükseltebilir. Bu, sürüş videoları için 1280×2048 çözünürlüğe sahip kısa, 4,7 saniyelik uzun videolar veya 512×1024 daha düşük çözünürlükte daha uzun videolar üretebileceği anlamına gelir.
İlk demoları (yukarıdaki ve aşağıdakiler gibi) görünce hemen düşündük, bunun GIF oyunumuzu ne kadar artırabileceği. Tamam, video oluşturmanın demokratikleşmesi ve otomatik film uyarlamaları olasılığı gibi daha büyük sonuçlar var, ancak bu aşamada metinden GIF’e dönüştürme en heyecan verici kullanım durumu gibi görünüyor.
“Sahilde süpüren bir fırtına askeri” ve “oyuncak ayı elektro gitar çalıyor, yüksek tanımlı, 4K” gibi basit komutlar, bazı kreasyonlarda doğal olarak eserler ve geçişler olsa bile oldukça kullanışlı sonuçlar üretir.
Şu anda bu, Nvidia’nın yeni demoları gibi metinden videoya teknolojisini küçük resimler ve GIF’ler için en uygun hale getiriyor. Ancak, görülen hızlı gelişmeler göz önüne alındığında, Daha uzun sahneler için Nvidia’nın AI nesli (yeni sekmede açılır)muhtemelen stok kitaplıklarında ve ötesinde daha uzun metinden videoya klipler için beklememiz gerekmeyecek.
Analiz: Üretken yapay zeka için bir sonraki sınır
Nvidia, bir AI metinden videoya oluşturucuyu gösteren ilk şirket değil. geçenlerde gördük Google Fenaki (yeni sekmede açılır) daha uzun istemlere dayalı 20 saniyelik klipler için potansiyelini ortaya çıkararak çıkışını yaptı. Demoları ayrıca iki dakikadan daha uzun olan daha ip gibi bir klip gösteriyor.
Metinden görüntüye oluşturucu Stable Diffusion’ın yaratılmasına yardımcı olan startup Runway, aynı zamanda Gen-2 AI video modeli (yeni sekmede açılır) geçen ay. “Bir New York çatı katının penceresinden içeri bakan öğleden sonra güneşi” (sonucu yukarıdadır) gibi istemlere yanıt vermenin yanı sıra, oluşturulan videoyu temel almak için hareketsiz bir görüntü sağlamanıza ve stillerin olmasını istemenize olanak tanır. videolarına da uygulandı.
İkincisi, AI’nın video düzenlemeyi ne kadar kolaylaştıracağını gösteren Adobe Firefly için son demoların da bir temasıydı. Adobe Premiere Rush gibi programlarda, yakında videonuzda görmek istediğiniz günün saatini veya mevsimi yazabileceksiniz ve Adobe’nin yapay zekası gerisini halledecek.
Nvidia, Google ve Runway’in son demoları, tam metinden videoya oluşturmanın biraz daha belirsiz bir durumda olduğunu ve genellikle garip, rüya gibi veya çarpık sonuçlar yarattığını gösteriyor. Ancak şimdilik bu, GIF oyunumuz için çok iyi olacak ve teknolojiyi daha uzun videolar için uygun hale getirecek hızlı iyileştirmeler kesinlikle çok yakında.