Meta’nın araştırmacıları, AI sanat üretimi alanında önemli bir adım attı Make-A-Video ile, yaratıcı bir şekilde adlandırılmış yeni teknik – tahmin ettiniz – bir metin isteminden başka bir şey yapmadan bir video yapmak. Sonuçlar etkileyici ve çeşitlidir ve istisnasız hepsi biraz ürkütücüdür.

Metinden videoya modelleri daha önce görmüştük — bu, istemlerden hareketsiz görüntüler veren DALL-E gibi metinden görüntüye modellerin doğal bir uzantısıdır. Ancak, durağan görüntüden hareketli görüntüye kavramsal atlama, insan zihni için küçük olsa da, bir makine öğrenimi modelinde uygulanması önemsiz olmaktan uzaktır.

Make-A-Video aslında oyunu arka uçta o kadar fazla değiştirmiyor – araştırmacıların bunu açıklayan makalede belirttiği gibi, “Yalnızca görüntüleri açıklayan metinleri gören bir model, kısa videolar oluşturmada şaşırtıcı derecede etkilidir.”

AI, esasen saf görsel statikten geriye doğru çalışan, hedef komut istemine doğru “gürültülü” çalışan görüntüler oluşturmak için mevcut ve etkili difüzyon tekniğini kullanır. Burada eklenen şey, modele bir grup etiketlenmemiş video içeriği üzerinde denetimsiz eğitim (yani, insanlardan güçlü bir kılavuz olmadan verileri inceledi) de verilmiş olmasıdır.

Baştan bildiği şey, gerçekçi bir görüntünün nasıl oluşturulacağıdır; saniyeden bildiği şey, bir videonun ardışık karelerinin neye benzediğidir. Şaşırtıcı bir şekilde, bunları nasıl birleştirilmesi gerektiğine dair özel bir eğitim olmaksızın çok etkili bir şekilde bir araya getirebiliyor.

“Tüm yönleriyle, uzamsal ve zamansal çözünürlük, metne bağlılık ve kalite, Make-A-Video, hem niteliksel hem de niceliksel ölçümlerle belirlendiği üzere, metinden videoya üretimde en son teknolojiyi belirliyor” araştırmacıları yaz.

Kabul etmemek zor. Önceki metinden videoya sistemler farklı bir yaklaşım kullandı ve sonuçlar etkileyici değildi ancak umut vericiydi. Şimdi Make-A-Video onları sudan çıkararak orijinal DALL-E veya diğer geçmiş nesil sistemlerde belki de 18 ay önceki görüntülerle aynı çizgide aslına uygunluk sağlıyor.

Ama söylenmelidir ki: kesinlikle onlarda hala bir şeyler var. Fotogerçekçilik veya tamamen doğal hareket beklememiz gerektiğinden değil, ancak sonuçların hepsinde bir tür… peki, bunun için başka bir kelime yok: onlar biraz kabus gibideğil mi?

Resim Kredisi: Meta

Resim Kredisi: Meta

Onlar için hem rüya gibi hem de korkunç olan bazı korkunç nitelikler var. Hareketin kalitesi, sanki bir stop-motion filmi gibi garip. Bozulma ve eserler, her parçaya, nesneler sızdırıyormuş gibi tüylü, gerçeküstü bir his verir. İnsanlar birbirine karışır – nesnelerin sınırları veya bir şeyin neyin son bulması veya temas etmesi gerektiği konusunda hiçbir anlayış yoktur.

Resim Kredisi: Meta

Resim Kredisi: Meta

Tüm bunları, yalnızca en iyi yüksek çözünürlüklü gerçekçi görüntüleri isteyen bir tür yapay zeka züppesi olarak söylemiyorum. Bu videoların bir anlamda ne kadar gerçekçi olsa da, diğerlerinde çok tuhaf ve itici olmasının büyüleyici olduğunu düşünüyorum. Hızlı ve keyfi olarak oluşturulabilmeleri inanılmaz – ve daha da iyi olacak. Ancak en iyi görüntü oluşturucular bile, parmağınızı koymak zor olan gerçeküstü kaliteye sahip.

Make-A-Video aynı zamanda hareketsiz görüntülerin ve diğer videoların bunların varyantlarına veya uzantılarına dönüştürülmesine de olanak tanır, tıpkı görüntü oluşturucuların görüntülerin kendileri tarafından yönlendirilmesine benzer. Sonuçlar biraz daha az rahatsız edici.

Bu gerçekten daha önce var olandan çok büyük bir adım ve takım tebrik edilmeli. Henüz halka açık değil, ancak buradan kaydol daha sonra karar verdikleri erişim şekli için listeye girmek için.



genel-24