OpenAI’nin Sora’sı, Luma AI’nın Dream Machine’i ve Runway Gen-3 Alpha gibi AI video oluşturucuları son zamanlarda manşetlerde yer alıyor, ancak yeni bir Google DeepMind aracı, hepsinin paylaştığı tek zayıf nokta olan eşlik eden ses eksikliğini düzeltebilir.
Yeni bir Google DeepMind gönderisi AI tarafından oluşturulan videolar için otomatik olarak film müzikleri ve ses manzaraları oluşturmak üzere piksel ve metin komutlarının bir kombinasyonunu kullanan yeni bir videodan sese (veya ‘V2A’) aracını ortaya çıkardı. Kısacası bu, tam otomatik film sahnelerinin yaratılmasına yönelik bir başka büyük adımdır.
Aşağıdaki videolarda görebileceğiniz gibi, bu V2A teknolojisi, atmosferik bir skor, zamanında ses efektleri ve hatta Google DeepMind’ın “bir videonun karakterleri ve tonuyla eşleştiğini” söylediği diyalog oluşturmak için AI video oluşturucularla (Google’ın Veo’su dahil) birleştirilebilir. .
İçerik oluşturucular da yalnızca tek bir ses seçeneğine bağlı kalmıyor; DeepMind’in yeni V2A aracı, görünüşe göre herhangi bir sahne için “herhangi bir video girişi için sınırsız sayıda film müziği” üretebiliyor; bu, birkaç basit metin istemiyle onu istediğiniz sonuca doğru itebileceğiniz anlamına geliyor .
Google, aracının yalnızca piksellere dayalı ses üretme yeteneği sayesinde rakip teknolojiden öne çıktığını söylüyor; ona yol gösterici bir metin istemi vermek görünüşe göre tamamen isteğe bağlı. Ancak DeepMind aynı zamanda büyük suiistimal ve deepfake potansiyelinin de oldukça farkındadır, bu nedenle bu V2A aracı şimdilik bir araştırma projesi olarak çevreleniyor.
DeepMind, “Erişimi daha geniş bir kitleye açmayı düşünmeden önce, V2A teknolojimiz sıkı güvenlik değerlendirmelerinden ve testlerinden geçecektir” diyor. Kesinlikle titiz olması gerekecek çünkü on kısa video örneği, teknolojinin hem iyi hem de kötü anlamda patlayıcı bir potansiyele sahip olduğunu gösteriyor.
Aşağıdaki ‘korku’ klibinde ve bir karikatür bebek dinozor klibinde de görüldüğü gibi, amatör film yapımcılığı ve animasyon potansiyeli çok büyüktür. A Bıçak SırtıElektronik müzik müziği eşliğinde arabaların bir şehirde savruluşunu gösteren benzeri sahne (altta), aynı zamanda bilim kurgu filmlerine ayrılan bütçelerin nasıl büyük ölçüde azaltılabileceğini de gösteriyor.
Endişeli içerik oluşturucular, ‘Claymation ailesi’ videosunda gösterilen bariz diyalog sınırlamalarından en azından biraz rahatlayacaklar. Ancak geçen yılın bize öğrettiği bir şey varsa o da DeepMind’ın V2A teknolojisinin bundan sonra büyük ölçüde gelişeceğidir.
Gideceğimiz yerde seslendirme sanatçılarına ihtiyacımız olmayacak
Yapay zeka tarafından oluşturulan videoların yapay zeka tarafından oluşturulan müzikler ve ses efektleriyle birleşimi, birçok düzeyde oyunun kurallarını değiştiriyor ve zaten hararetli olan silahlanma yarışına başka bir boyut katıyor.
OpenAI, bu yılın sonlarında piyasaya sürülmesi planlanan Sora video oluşturucusuna ses eklemeyi planladığını zaten söylemişti. Ancak DeepMind’ın yeni V2A aracı, teknolojinin zaten ileri bir aşamada olduğunu ve sonsuz yönlendirmeye ihtiyaç duymak yerine yalnızca videolara dayalı ses oluşturabildiğini gösteriyor.
DeepMind’ın aracı, videonun piksellerinden alınan bilgileri ve kullanıcının metin istemlerini birleştiren, ardından sıkıştırılmış sesi dağıtan ve daha sonra bir ses dalga biçimine dönüştürülen bir yayılma modeli kullanarak çalışır. Görünüşe göre video, ses ve yapay zeka tarafından oluşturulan ek açıklamaların bir kombinasyonu üzerine eğitilmişti.
Bu V2A aracının tam olarak hangi içerik üzerinde eğitildiği belli değil, ancak Google’ın dünyanın en büyük video paylaşım platformu YouTube’a sahip olma konusunda potansiyel olarak büyük bir avantaja sahip olduğu açık. Ne YouTube ne de onun kullanım Şartları Videolarının yapay zekayı eğitmek için nasıl kullanılabileceği konusunda tamamen açık, ancak YouTube’un CEO’su Neal Mohan yakın zamanda şunları söyledi: Bloomberg Bazı içerik oluşturucuların, içeriklerinin yapay zeka modellerini eğitmek için kullanılmasına izin veren sözleşmeleri var.
Açıkça görülüyor ki teknolojinin hâlâ diyalog konusunda bazı sınırlamaları var ve Hollywood’a hazır, bitmiş bir makale üretmekten hâlâ çok uzakta. Ancak hikaye taslağı oluşturma ve amatör film yapımcıları için zaten potansiyel olarak güçlü bir araç ve OpenAI gibilerle yaşanan sıcak rekabet, buradan itibaren hızla gelişeceği anlamına geliyor.