Google’ın yapay zeka araştırma laboratuvarı DeepMind, videolar için müzikler oluşturmak üzere yapay zeka teknolojisi geliştirdiğini söylüyor.

İçinde postalamak DeepMind, resmi blogunda V2A teknolojisini (“videodan sese” kısaltması) yapay zeka tarafından oluşturulan medya bulmacasının önemli bir parçası olarak gördüğünü söylüyor. DeepMind da dahil olmak üzere pek çok kuruluş, video üreten yapay zeka modelleri geliştirmiş olsa da, bu modeller, oluşturdukları videolarla senkronize olacak ses efektleri oluşturamıyor.

DeepMind, “Video oluşturma modelleri inanılmaz bir hızla ilerliyor, ancak mevcut sistemlerin çoğu yalnızca sessiz çıktı üretebiliyor” diye yazıyor. “V2A teknolojisi [could] üretilen filmleri hayata geçirmek için umut verici bir yaklaşım haline gelebilir.”

DeepMind’ın V2A teknolojisi, müzik, ses efektleri ve hatta videonun karakterleri ve tonuyla eşleşen, DeepMind’in deepfake filigranlarıyla eşleşen diyaloglar oluşturmak için bir videoyla eşleştirilen bir film müziğinin tanımını (örneğin “su altında titreşen denizanası, deniz yaşamı, okyanus”) alır -SynthID teknolojisiyle mücadele. DeepMind, bir yayılma modeli olan V2A’yı destekleyen yapay zeka modelinin, seslerin ve diyalog transkriptlerinin yanı sıra video kliplerin bir kombinasyonu üzerinde eğitildiğini söylüyor.

DeepMind’a göre “Video, ses ve ek açıklamalar konusunda eğitim alarak teknolojimiz, ek açıklamalarda veya transkriptlerde sağlanan bilgilere yanıt verirken belirli ses olaylarını çeşitli görsel sahnelerle ilişkilendirmeyi öğreniyor.”

Eğitim verilerinden herhangi birinin telif hakkıyla korunup korunmadığı ve veriyi oluşturanların DeepMind’ın çalışmaları hakkında bilgilendirilip bilgilendirilmediği konusunda söz anneye ait. Açıklama için DeepMind’e ulaştık ve geri bildirim alırsak bu yazıyı güncelleyeceğiz.

Yapay zeka destekli ses üreten araçlar yeni değil. Startup Stability AI geçen hafta bir tane yayınladı ve ElevenLabs da Mayıs ayında bir tanesini piyasaya sürdü. Modeller video ses efektleri oluşturmaya da uygun değildir. Bir Microsoft proje Hareketsiz bir görüntüden konuşma ve şarkı söyleme videoları oluşturulabilir ve benzeri platformlar Pika Ve TürX Modelleri video çekmek ve belirli bir sahnede hangi müziğin veya efektlerin uygun olduğuna dair en iyi tahminde bulunmak üzere eğittik.

Ancak DeepMind, V2A teknolojisinin, bir videodaki ham pikselleri anlayabilmesi ve oluşturulan sesleri otomatik olarak videoyla senkronize edebilmesi (isteğe bağlı olarak açıklama olmadan) açısından benzersiz olduğunu iddia ediyor.

V2A mükemmel değildir ve DeepMind bunu kabul etmektedir. Temel model, bozulma veya bozulma içeren çok sayıda video üzerinde eğitilmediğinden, bunlar için özellikle yüksek kaliteli ses oluşturmaz. Ve genel olarak oluşturulan ses Süper inandırıcı; meslektaşım Natasha Lomas bunu “basmakalıp seslerden oluşan bir açık büfe” olarak tanımladı ve buna katılmadığımı söyleyemem.

Bu nedenlerden dolayı ve kötüye kullanımı önlemek için DeepMind, teknolojiyi yakın zamanda halka sunmayacağını söylüyor.

DeepMind, “V2A teknolojimizin yaratıcı topluluk üzerinde olumlu bir etki yaratabileceğinden emin olmak için, önde gelen yaratıcılardan ve film yapımcılarından farklı bakış açıları ve içgörüler topluyoruz ve bu değerli geri bildirimleri devam eden araştırma ve geliştirmemize bilgi sağlamak için kullanıyoruz” diye yazıyor. “Daha geniş bir kitleye erişim sağlamayı düşünmeden önce, V2A teknolojimiz sıkı güvenlik değerlendirmelerinden ve testlerinden geçecek.”

DeepMind, V2A teknolojisini arşivciler ve tarihi görüntülerle çalışan kişiler için özellikle yararlı bir araç olarak sunuyor. Ancak bu doğrultuda üretken yapay zeka aynı zamanda film ve TV endüstrisini altüst etme tehdidini de taşıyor. Üretken medya araçlarının işleri (veya duruma göre tüm meslekleri) ortadan kaldırmamasını sağlamak için ciddi anlamda güçlü işgücü korumaları gerekecektir.





genel-24