Henüz hiç kimse üretken video modellerinin ne işe yaradığını bilmiyor ancak bu, Runway, OpenAI ve Meta gibi şirketlerin bunları geliştirmek için milyonlar akıtmasını engellemedi. Meta’nın sonuncusunun adı Movie Genve ismine sadık kalarak metin istemlerini sesli nispeten gerçekçi videoya dönüştürüyor… ama çok şükür henüz ses yok. Ve akıllıca davranarak bunu halka açıklamıyorlar.

Movie Gen aslında en büyüğü metinden videoya bit olan temel modellerin bir koleksiyonudur (veya onların deyimiyle “oyuncular”). Meta, Runway’in Gen3’ü, LumaLabs’ın en yeni oyunu ve Kling1.5 gibi oyunlardan daha iyi performans gösterdiğini iddia ediyor, ancak her zaman olduğu gibi bu tür şeyler, Movie Gen’in kazandığından daha çok aynı oyunu oynadıklarını gösteriyor. Teknik ayrıntılar, tüm bileşenleri açıklayan Meta’nın yayınladığı makalede bulunabilir.

Ses, videonun içeriğine uyacak şekilde oluşturulur; örneğin araba hareketlerine karşılık gelen motor sesleri veya arka planda bir şelalenin akışı veya istendiğinde videonun ortasında bir gök gürültüsü eklenir. İlgili görünüyorsa müzik bile ekleyecektir.

“Tescilli/ticari açıdan hassas” olarak adlandırdıkları ve hakkında daha fazla ayrıntı vermeyecekleri “lisanslı ve kamuya açık veri kümelerinin bir kombinasyonu” üzerine eğitilmişti. Pek çok Instagram ve Facebook videosunun yanı sıra bazı ortak içeriklerin ve kazıyıcılara karşı yeterince korunmayan diğer birçok videonun (diğer adıyla “halka açık” olduğu anlamına geldiğini yalnızca tahmin edebiliriz.)

Ancak Meta’nın burada açıkça hedeflediği şey, yalnızca bir veya iki ay boyunca “en son teknoloji” tacını yakalamak değil, aynı zamanda çok basit bir işlemden katı bir nihai ürünün üretilebileceği pratik, çorbadan kuruyemişe bir yaklaşımdır. , doğal dil istemi. “Beni fırtınada parlak bir su aygırı pastası yapan bir fırıncı olarak hayal edin” gibi şeyler.

Örneğin, bu video oluşturucular için bir anlaşmazlık noktası, genellikle düzenlemenin ne kadar zor olduğudur. Sokakta yürüyen birinin videosunu isterseniz ve onun soldan sağa yerine sağdan sola yürümesini istediğinizi fark ederseniz, bu ek talimatı tekrarladığınızda tüm çekimin farklı görünme ihtimali yüksektir. Meta, basitçe “arka planı yoğun bir kavşakla değiştir” veya “kıyafetlerini kırmızı bir elbiseyle değiştir” diyebileceğiniz basit, metin tabanlı bir düzenleme yöntemi ekliyor ve bu değişikliği yapmaya çalışacak, ancak sadece bu değişiklik.

Resim Kredisi:Meta

Kamera hareketleri de genel olarak anlaşılır; video oluşturulurken “takip çekimi” ve “sola kaydırma” gibi şeyler dikkate alınır. Bu, gerçek kamera kontrolüyle karşılaştırıldığında hala oldukça hantaldır, ancak hiç yoktan çok daha iyidir.

Modelin sınırlamaları biraz tuhaf. Çoğu kişinin ünlü ama modası geçmiş 1024×768’den aşina olduğu, ancak aynı zamanda 256’nın üç katı olan ve diğer HD formatlarıyla iyi oynatılmasını sağlayan 768 piksel genişliğinde video üretir. Movie Gen sistemi bunu 1080p’ye yükseltiyor ve bu çözünürlüğü ürettiği iddiasının kaynağı da bu. Pek doğru değil ama ölçek yükseltmenin şaşırtıcı derecede etkili olması nedeniyle onlara izin vereceğiz.

Tuhaf bir şekilde, saniyede 16 kare hızında, 16 saniyeye kadar video üretiyor; tarihte hiç kimsenin istemediği veya talep etmediği bir kare hızı. Ancak 24 FPS’de 10 saniyelik video da yapabilirsiniz. Bununla liderlik et!

Neden ses çıkarmadığına gelince… muhtemelen iki sebep var. İlk olarak, çok zor. Konuşmayı oluşturmak artık kolay ama onu dudak hareketleriyle ve dudak yüze hareketleriyle eşleştirmek çok daha karmaşık bir iş. Bunu daha sonraya bıraktıkları için onları suçlamıyorum, çünkü bu ilk dakikadaki bir başarısızlık durumu olacaktır. Birisi “daireler çizerek küçük bir bisiklet sürerken Gettysburg Konuşmasını yapan bir palyaço yaratın” diyebilir; viral olmaya hazır bir kabus yakıtı.

İkinci neden ise muhtemelen politik: büyük bir seçimden bir ay önce deepfake oluşturucu anlamına gelen bir şeyi ortaya çıkarmak… optik açısından en iyisi değil. Yeteneklerini biraz kısıtlayarak, kötü niyetli aktörlerin onu kullanmaya çalışması durumunda, bu onların açısından gerçek bir çalışma gerektirecektir ve pratik bir önleyici adımdır. Bu üretken model kesinlikle bir konuşma oluşturucu ve açık dudak senkronizasyonu modeliyle birleştirilebilir, ancak bunun öylece çılgınca iddialarda bulunan bir aday üretmesini sağlayamazsınız.

TechCrunch’ın sorularına yanıt veren bir Meta temsilcisi, “Movie Gen şu anda tamamen bir yapay zeka araştırma konsepti ve bu erken aşamada bile güvenlik, tüm üretken yapay zeka teknolojilerimizde olduğu gibi en büyük önceliktir” dedi.

Lama’nın geniş dilli modellerinden farklı olarak Movie Gen halka açık olmayacak. Araştırma makalesini takip ederek tekniklerini bir şekilde çoğaltabilirsiniz, ancak kod, “temel değerlendirme istemi veri kümesi”, yani test videolarını oluşturmak için hangi istemlerin kullanıldığının kaydı dışında yayınlanmayacaktır.



genel-24