Nvidia, yapay zeka alanında yeni bir çözüm tanıttı – bir metin açıklamasına dayalı ve yüksek çözünürlüklü videolar oluşturmanıza olanak tanıyan Video LDM sinir ağı. Projede Cornell Üniversitesi’nden Nvidia uzmanları ve geliştiricileri yer alıyor.


Kaynak: Nvidia

Sinir ağının 2048×1280 piksele kadar çözünürlüğe ve 24 kare frekansa sahip videolar oluşturduğuna dikkat çekiliyor. AI modelinin 4,1 milyar parametresi vardır, bunların 2,7 milyarı sinir ağının “eğitildiği” videolar için kullanılmıştır.

Sinir ağında kullanılan Gizli Difüzyon Modelleri mekanizması, güçlü ve pahalı donanımlar olmadan yapmanızı sağlar ve iş için Stable Difüzyon motoru kullanılır. Böylece Video LDM, klipleri kare kare oluşturur.

Ayrıca sistem, 1024 × 512 piksel çözünürlükte ve 5 dakikaya kadar süren sürüş sahnelerinin videolarını da üretebiliyor.

Nvidia web sitesinde yeni AI’nın yeteneklerini sergileyen bir dizi video var, kısa ve uzun videolar var. Aynı zamanda, Video LDM’nin henüz herkese açık bir sürümü yok, ayrıca ne zaman kamu malı olarak görüneceği de belli değil. Şimdiye kadar, bu sadece bir araştırma projesi, ticari bir proje değil.

18-22 Haziran tarihlerinde Kanada’nın Vancouver kentinde gerçekleştirilecek olan Yapay Görme ve Örüntü Tanıma Konferansı’nda tam bir sunum bekleniyor.



genel-22