Google Derin Zihin

Deep Mind Salı günü üretken yapay zeka video-ses araştırmasının en son sonuçlarını açıkladı. Belirli bir video klip için senkronize ses ortamları oluşturmak üzere ekranda gördüklerini kullanıcının yazılı istemiyle birleştiren yeni bir sistemdir.

V2A AI, Veo gibi video oluşturma modelleriyle eşleştirilebilir. Deep Mind’in üretken ses ekibi şunu yazdı: bir blog gönderisinde kullanabilir ve ekrandaki aksiyon için müzikler, ses efektleri ve hatta diyaloglar oluşturabilir. Dahası Deep Mind, yeni sisteminin, modeli sırasıyla belirli bir sesin kullanımını teşvik eden veya engelleyen olumlu ve olumsuz komutlarla ayarlayarak “herhangi bir video girişi için sınırsız sayıda film müziği” oluşturabileceğini iddia ediyor.

Sistem ilk önce video girişini kodlayıp sıkıştırarak çalışır; daha sonra difüzyon modeli, kullanıcının isteğe bağlı metin istemine ve görsel girişe dayalı olarak arka plan gürültüsünden istenen ses efektlerini yinelemeli olarak iyileştirmek için bundan yararlanır. Bu ses çıkışının kodu çözülür ve daha sonra video girişiyle yeniden birleştirilebilecek bir dalga biçimi olarak dışa aktarılır.

En iyi yanı, V2A sistemi bunu otomatik olarak yaptığından, kullanıcının ses ve video parçalarını manuel olarak (okuyarak: sıkıcı bir şekilde) senkronize etmesine gerek olmamasıdır. Deep Mind ekibi şunları yazdı: “Video, ses ve ek açıklamalar konusunda eğitim alarak teknolojimiz, belirli ses olaylarını çeşitli görsel sahnelerle ilişkilendirmeyi öğrenirken aynı zamanda ek açıklamalarda veya transkriptlerde sağlanan bilgilere yanıt verir.”

Ancak sistem henüz mükemmel değil. Birincisi, çıkış ses kalitesi, video girişinin aslına uygunluğuna bağlıdır ve girişte video yapaylıkları veya diğer bozulmalar mevcut olduğunda sistem devreye girer. Deep Mind ekibine göre, diyaloğu ses parçasıyla senkronize etmek devam eden bir zorluk olmaya devam ediyor.

Ekip, “V2A, giriş transkriptlerinden konuşma üretmeye ve bunu karakterlerin dudak hareketleriyle senkronize etmeye çalışıyor” diye açıkladı. “Fakat eşleştirilmiş video oluşturma modeli transkriptlere bağlı olmayabilir. Bu, bir uyumsuzluk yaratıyor ve video modeli, transkripsiyonla eşleşen ağız hareketleri oluşturmadığından genellikle esrarengiz dudak senkronizasyonuyla sonuçlanıyor.”

Ekibin sistemi halka sunmayı düşünmesi için sistemin hâlâ “sıkı güvenlik değerlendirmelerinden ve testlerinden” geçmesi gerekiyor. Bu sistem tarafından oluşturulan her video ve film müziği Deep Mind’in SynthID filigranları. Bu sistem şu anda piyasada bulunan tek ses üreten yapay zeka olmaktan çok uzak. Stabilite AI benzer bir ürünü düşürdü daha geçen hafta bu arada ElevenLabs ses efektleri aracını yayınladı geçen ay.








genel-19