Google'ın Ses Yapay Zekası ses efektleri oluşturmak için pikselleri izliyor - Dünyadan Güncel Teknoloji Haberleri

Google’ın Ses Yapay Zekası ses efektleri oluşturmak için pikselleri izliyor

Google Derin Zihin

Deep Mind Salı günü üretken yapay zeka video-ses araştırmasının en son sonuçlarını açıkladı. Belirli bir video klip için senkronize ses ortamları oluşturmak üzere ekranda gördüklerini kullanıcının yazılı istemiyle birleştiren yeni bir sistemdir.

V2A AI, Veo gibi video oluşturma modelleriyle eşleştirilebilir. Deep Mind’in üretken ses ekibi şunu yazdı: bir blog gönderisinde kullanabilir ve ekrandaki aksiyon için müzikler, ses efektleri ve hatta diyaloglar oluşturabilir. Dahası Deep Mind, yeni sisteminin, modeli sırasıyla belirli bir sesin kullanımını teşvik eden veya engelleyen olumlu ve olumsuz komutlarla ayarlayarak “herhangi bir video girişi için sınırsız sayıda film müziği” oluşturabileceğini iddia ediyor.

Sistem ilk önce video girişini kodlayıp sıkıştırarak çalışır; daha sonra difüzyon modeli, kullanıcının isteğe bağlı metin istemine ve görsel girişe dayalı olarak arka plan gürültüsünden istenen ses efektlerini yinelemeli olarak iyileştirmek için bundan yararlanır. Bu ses çıkışının kodu çözülür ve daha sonra video girişiyle yeniden birleştirilebilecek bir dalga biçimi olarak dışa aktarılır.

En iyi yanı, V2A sistemi bunu otomatik olarak yaptığından, kullanıcının ses ve video parçalarını manuel olarak (okuyarak: sıkıcı bir şekilde) senkronize etmesine gerek olmamasıdır. Deep Mind ekibi şunları yazdı: “Video, ses ve ek açıklamalar konusunda eğitim alarak teknolojimiz, belirli ses olaylarını çeşitli görsel sahnelerle ilişkilendirmeyi öğrenirken aynı zamanda ek açıklamalarda veya transkriptlerde sağlanan bilgilere yanıt verir.”

Ancak sistem henüz mükemmel değil. Birincisi, çıkış ses kalitesi, video girişinin aslına uygunluğuna bağlıdır ve girişte video yapaylıkları veya diğer bozulmalar mevcut olduğunda sistem devreye girer. Deep Mind ekibine göre, diyaloğu ses parçasıyla senkronize etmek devam eden bir zorluk olmaya devam ediyor.

Ekip, “V2A, giriş transkriptlerinden konuşma üretmeye ve bunu karakterlerin dudak hareketleriyle senkronize etmeye çalışıyor” diye açıkladı. “Fakat eşleştirilmiş video oluşturma modeli transkriptlere bağlı olmayabilir. Bu, bir uyumsuzluk yaratıyor ve video modeli, transkripsiyonla eşleşen ağız hareketleri oluşturmadığından genellikle esrarengiz dudak senkronizasyonuyla sonuçlanıyor.”

Ekibin sistemi halka sunmayı düşünmesi için sistemin hâlâ “sıkı güvenlik değerlendirmelerinden ve testlerinden” geçmesi gerekiyor. Bu sistem tarafından oluşturulan her video ve film müziği Deep Mind’in SynthID filigranları. Bu sistem şu anda piyasada bulunan tek ses üreten yapay zeka olmaktan çok uzak. Stabilite AI benzer bir ürünü düşürdü daha geçen hafta bu arada ElevenLabs ses efektleri aracını yayınladı geçen ay.

genel-19

Google’ın Ses Yapay Zekası ses efektleri oluşturmak için pikselleri izliyor

Byteknomers

By teknomers

Benzer İçerikler

Çin Destekli Bilgisayar Korsanları Telekom Ağlarına Sızmak İçin SIGTRAN ve GSM Protokollerinden Yararlanıyor

Volkswagen işçileri işten çıkarmalara ve fabrika kapatmalara karşı: Volkswagen işçilerinin 2018’den bu yana ilk büyük ölçekli grevinin 1 Aralık’ta gerçekleşeceği artık kesin

Yeni Victrix Pro KO Leverless Fight Stick Çok Yakında, Ön Siparişler Başlıyor

Microsoft, Edge Game Assist ile Edge’in Oyun Tarayıcınız Olmasını İstiyor

Kenshi Yonezu, AZALEA İçin Yeni Şarkı ve Müzik Videosunu Yayınladı

Hayvan Geçişi: Yeni Ufuklar Büyük Kara Cuma İndirimi Aldı

Hırsızların Oculus Kulaklıklarla Dolu 1,5 Milyon Dolar Dolu Bir Kamyonu Çaldığı İddia Edildi

iOS 19 da iOS 18 kadar şaşırtıcı olacak

Apple hızla büyüyen bir sektörde hemen oyuncu olmak için 5 milyar dolardan fazla harcar mıydı?

Sony’nin amiral gemisi WH-1000XM5, bu büyük Kara Cuma indiriminde sıcak kek gibi satılıyor

En premium Garmin Epix Pro Gen 2 modeli Kara Cuma için rekor düşük bir fiyata ulaştı

Proba-3 uzayda milimetrik hassasiyet için lazer kullanacak

Bilim insanları Mars uzayında güneş enerjili yüksek enerjili protonların ilk tam enerji spektrumunu oluşturdular

Samanyolu diskinin etrafında ateşli gaz örtüsü ortaya çıktı

Bilim insanları, evrenimizi birbirinden ayıran karanlık enerjinin göründüğü gibi olmayabileceğini söylüyor

İlginizi Çekebilir

Çin Destekli Bilgisayar Korsanları Telekom Ağlarına Sızmak İçin SIGTRAN ve GSM Protokollerinden Yararlanıyor

Bilgisayar korsanları Rusya’daki ABD firmasının Wi-Fi ağını ihlal ediyor – binlerce kilometre uzaktan erişim kazanmak için ağdan ağa zincirleme saldırı atlıyor

Volkswagen işçileri işten çıkarmalara ve fabrika kapatmalara karşı: Volkswagen işçilerinin 2018’den bu yana ilk büyük ölçekli grevinin 1 Aralık’ta gerçekleşeceği artık kesin

Yeni Victrix Pro KO Leverless Fight Stick Çok Yakında, Ön Siparişler Başlıyor