Yapay zeka sohbet robotları ve yapay zeka sanat oluşturucularının popülaritesi her geçen saat artarken, sektördeki en büyük oyunculardan bazıları yeni araçlara ayak uydurmaya çalışıyor.
Meta az önce sundu Ses kutusuo kadar güçlü yapay zekaya sahip bir konuşma üreteci ki, şirket mevcut tüm modellerden daha iyi performans gösterdiğini iddia ediyor.
Voicebox, ChatGPT’nin metin oluşturabilmesi ve Bing veya Dall-E 2’nin görüntü oluşturabilmesi kadar kolay bir şekilde ses oluşturacak kadar güçlüdür. Sistem henüz kullanıma sunulmasa da Meta, demolar Voicebox hakkında daha fazla bilgi edinmek isteyen herkes tarafından erişilebilir.
Bir örneğin ses stilini eşleştirin
Sistem, örneğin ses üretimi doğal ses klipleriyle sonuçlandığından, içerik oluşturucular ve editörler tarafından ses düzenlemede kullanılabilir. Ve köpek havlaması gibi ses kliplerindeki gürültüyü akıllıca kaldıracak ve tek bir ritmi bile kaçırmadan sesi yeniden oluşturacak kadar çok yönlüdür.
Voicebox’ın özelliklerinden biri, bir örneğin ses stiliyle eşleşebilmesi ve metinden konuşmaya klipler oluşturabilmesidir.
Yeni üretken yapay zeka aracı, bağlam içi öğrenme yoluyla görevleri çözebilir, böylece daha önce hiç alınmamış metni işleyebilir ve tıpkı bir kişinin okuyacağı gibi, öğrenmek ve yeni zorlukların üstesinden gelmek için mevcut bilgileri kullanarak doğru şekilde bağlam ve çekimler oluşturabilir.
Bir ikili sınıflandırma modeli, gerçek ses ile Voicebox tarafından oluşturulan ses arasında ayrım yapabilir.
Bu devrim niteliğindeki aracın etik ve yasal sonuçları önemlidir. Herkes, izni olmadan birinin ses kayıtlarından ses klipleri oluşturabilir ve onlara istediğini söylettirebileceğini iddia edebilir.
Araştırma makalesinde Meta, bir ikili sınıflandırma modelinin gerçek ses ile Voicebox tarafından üretilen ses arasında ayrım yapabileceğini iddia ediyor. Her neyse, sistem (henüz) halka açık değil, henüz kimse modelin performansını test etmedi.
En yüksek performans için altı dilde 60.000 saat İngilizce sesli kitap ve 50.000 saat çok dilli sesli kitap üzerinde meta eğitimli Voicebox. Bu eğitim, herhangi bir eğitim almadan çok dilli konuşma sentezleme, konuşma gürültüsünü giderme, biçimlendirme, düzenleme ve çeşitli konuşma örnekleri oluşturma olanağı sağlar.
performans arayışı içinde
İçinde yayınlanmış makale Şirket, Meta AI tarafından 20 kat daha hızlı çeşitli ses örnekleri üretebileceğini iddia ediyor. VALL-E Microsoft’tan ve daha anlaşılır bir şekilde.
Meta, rakiplerinden daha hızlı olmasının ve daha az hata yapmasının yanı sıra, Voicebox’ın her dil için ayrı ayrı özel eğitim almadan bir veya daha fazla dildeki yazılı metinleri sözlü kelimelere dönüştürebileceğini iddia ediyor.
Önceki modele kıyasla, TTS’nizVoicebox ortalama kelime hatası oranını %10,9’dan %5,2’ye düşürdü ve ses benzerliğini 0,335’ten 0,481’e çıkardı.
Kaynak : “ZDNet.com”