DeepMind'ın yeni yapay zekası videolar için müzikler ve diyaloglar üretiyor - Dünyadan Güncel Teknoloji Haberleri

Google’ın yapay zeka araştırma laboratuvarı DeepMind, videolar için müzikler oluşturmak üzere yapay zeka teknolojisi geliştirdiğini söylüyor.

İçinde postalamak DeepMind, resmi blogunda V2A teknolojisini (“videodan sese” kısaltması) yapay zeka tarafından oluşturulan medya bulmacasının önemli bir parçası olarak gördüğünü söylüyor. DeepMind da dahil olmak üzere pek çok kuruluş, video üreten yapay zeka modelleri geliştirmiş olsa da, bu modeller, oluşturdukları videolarla senkronize olacak ses efektleri oluşturamıyor.

DeepMind, “Video oluşturma modelleri inanılmaz bir hızla ilerliyor, ancak mevcut sistemlerin çoğu yalnızca sessiz çıktı üretebiliyor” diye yazıyor. “V2A teknolojisi [could] üretilen filmleri hayata geçirmek için umut verici bir yaklaşım haline gelebilir.”

DeepMind’ın V2A teknolojisi, müzik, ses efektleri ve hatta videonun karakterleri ve tonuyla eşleşen, DeepMind’in deepfake filigranlarıyla eşleşen diyaloglar oluşturmak için bir videoyla eşleştirilen bir film müziğinin tanımını (örneğin “su altında titreşen denizanası, deniz yaşamı, okyanus”) alır -SynthID teknolojisiyle mücadele. DeepMind, bir yayılma modeli olan V2A’yı destekleyen yapay zeka modelinin, seslerin ve diyalog transkriptlerinin yanı sıra video kliplerin bir kombinasyonu üzerinde eğitildiğini söylüyor.

DeepMind’a göre “Video, ses ve ek açıklamalar konusunda eğitim alarak teknolojimiz, ek açıklamalarda veya transkriptlerde sağlanan bilgilere yanıt verirken belirli ses olaylarını çeşitli görsel sahnelerle ilişkilendirmeyi öğreniyor.”

Eğitim verilerinden herhangi birinin telif hakkıyla korunup korunmadığı ve veriyi oluşturanların DeepMind’ın çalışmaları hakkında bilgilendirilip bilgilendirilmediği konusunda söz anneye ait. Açıklama için DeepMind’e ulaştık ve geri bildirim alırsak bu yazıyı güncelleyeceğiz.

Yapay zeka destekli ses üreten araçlar yeni değil. Startup Stability AI geçen hafta bir tane yayınladı ve ElevenLabs da Mayıs ayında bir tanesini piyasaya sürdü. Modeller video ses efektleri oluşturmaya da uygun değildir. Bir Microsoft proje Hareketsiz bir görüntüden konuşma ve şarkı söyleme videoları oluşturulabilir ve benzeri platformlar Pika Ve TürX Modelleri video çekmek ve belirli bir sahnede hangi müziğin veya efektlerin uygun olduğuna dair en iyi tahminde bulunmak üzere eğittik.

Ancak DeepMind, V2A teknolojisinin, bir videodaki ham pikselleri anlayabilmesi ve oluşturulan sesleri otomatik olarak videoyla senkronize edebilmesi (isteğe bağlı olarak açıklama olmadan) açısından benzersiz olduğunu iddia ediyor.

V2A mükemmel değildir ve DeepMind bunu kabul etmektedir. Temel model, bozulma veya bozulma içeren çok sayıda video üzerinde eğitilmediğinden, bunlar için özellikle yüksek kaliteli ses oluşturmaz. Ve genel olarak oluşturulan ses Süper inandırıcı; meslektaşım Natasha Lomas bunu “basmakalıp seslerden oluşan bir açık büfe” olarak tanımladı ve buna katılmadığımı söyleyemem.

Bu nedenlerden dolayı ve kötüye kullanımı önlemek için DeepMind, teknolojiyi yakın zamanda halka sunmayacağını söylüyor.

DeepMind, “V2A teknolojimizin yaratıcı topluluk üzerinde olumlu bir etki yaratabileceğinden emin olmak için, önde gelen yaratıcılardan ve film yapımcılarından farklı bakış açıları ve içgörüler topluyoruz ve bu değerli geri bildirimleri devam eden araştırma ve geliştirmemize bilgi sağlamak için kullanıyoruz” diye yazıyor. “Daha geniş bir kitleye erişim sağlamayı düşünmeden önce, V2A teknolojimiz sıkı güvenlik değerlendirmelerinden ve testlerinden geçecek.”

DeepMind, V2A teknolojisini arşivciler ve tarihi görüntülerle çalışan kişiler için özellikle yararlı bir araç olarak sunuyor. Ancak bu doğrultuda üretken yapay zeka aynı zamanda film ve TV endüstrisini altüst etme tehdidini de taşıyor. Üretken medya araçlarının işleri (veya duruma göre tüm meslekleri) ortadan kaldırmamasını sağlamak için ciddi anlamda güçlü işgücü korumaları gerekecektir.

genel-24

DeepMind’ın yeni yapay zekası videolar için müzikler ve diyaloglar üretiyor

Byteknomers

By teknomers

Benzer İçerikler

Pil canavarı Moto G Power 5G (2024), Amazon’da 100 $ indirimle sıcak bir seçim olmaya devam ediyor

Akıl sağlığınızdan ödün vermeden bir startup kurabilir misiniz? Bonobo’nun kurucusu Andy Dunn öyle düşünüyor

Yenilmez Dövüş Kızı serileştirilmiş animasyon hayalini canlı tutmak istiyor

Hades tarzı Kral Arthur roguelike Sworn’un artık ücretsiz bir demosu var, ancak bu uzun sürmeyecek

Metafor: ReFantazio Güncellemesi 1.09 Nihayet PS4, Xbox One ve PC’de Yayınlandı

Capcom, Monster Hunter Wilds lansmanının betada gelişeceğini garanti ediyor

Forgotten Elder Scrolls oyunu Steam’de listeden kaldırıldı ve yakında tamamen kapatılacak

Bu, Samsung’un 2025’teki amiral gemisi serisinin tamamı olabilir

Düşük verimlere rağmen Samsung, Galaxy S25 ve S25+ modellerini Exynos 2500 AP ile paketlemeyi tercih ediyor

Huawei’nin kurucusu ve CEO’su bir kez daha ABD’li teknoloji devlerini övdü

Sıcak Bose SoundLink Max nihayet Amazon’da satışa çıkıyor – fırsatınız varken bir tanesinde 100 $ tasarruf edin

Uluslararası SWOT uydusu gezegeni kasıp kavuran Grönland tsunamisini tespit ediyor

Dünyanın kutupları ters döndüğünde böyle ses çıkıyor

Kara delik çalışması Kerr’in çözüm varsayımlarına meydan okuyor

Hubble ve Webb, Vega’nın etrafındaki şaşırtıcı derecede pürüzsüz diski araştırıyor

İlginizi Çekebilir

Pil canavarı Moto G Power 5G (2024), Amazon’da 100 $ indirimle sıcak bir seçim olmaya devam ediyor

Akıl sağlığınızdan ödün vermeden bir startup kurabilir misiniz? Bonobo’nun kurucusu Andy Dunn öyle düşünüyor

Resmi bayi yeni bir Honda Accord getirdi ve onu 3 yıl garantiyle satıyor. Ama fiyat etkileyici

Yenilmez Dövüş Kızı serileştirilmiş animasyon hayalini canlı tutmak istiyor