Meta, geçen hafta metinden konuşma üretebilen gelişmiş yapay zeka (AI) aracı Voicebox’ı duyurdu. Facebook ana şirketi Meta’nın en son aracının, sesin içeriğini ve stilini korurken yüksek kaliteli ses klipleri ürettiği ve önceden kaydedilmiş sesleri düzenlediği iddia ediliyor. Çok dilli olduğu söyleniyor ve altı dilde konuşma yaptığı iddia ediliyor. Makine öğrenimi modeli, gürültü giderme için de kullanılabilir. Meta’nın Ses Kutusu ayrıca tüm konuşmayı yeniden kaydetmeye gerek kalmadan yanlış söylenen kelimeleri değiştirme yeteneğine de sahiptir. Yeni üretken metinden konuşmaya modeli, ChatGPT ve Dall-E dahil olmak üzere yeni AI yenilikleri gibi çalışır.
Facebook’un ana şirketi Meta açıkladı Geçen hafta bir blog yazısı aracılığıyla Voicebox. Bu yeni üretken yapay zeka modeli, düzenleme, örnekleme ve stil oluşturma gibi konuşma oluşturma görevlerini gerçekleştirebilir. Sesin içeriğini ve stilini korurken, iki saniyelik bir ses örneğinden ses klipleri ilettiği ve önceden kaydedilmiş sesi düzenlediği iddia ediliyor.
Metin okuma modelinin, gürültü giderme, içerik düzenleme, stil dönüştürme ve çeşitli örnek oluşturma gibi görevleri gerçekleştirme sözü verilir. Belirli bir örneğin herhangi bir bölümünü değiştirdiği ve konuşmanın araba kornaları veya havlayan köpekler gibi gürültülerle kesilen bir bölümünü yeniden yarattığı belirtiliyor. AI modeli, tüm konuşmayı yeniden kaydetmeye gerek kalmadan yanlış söylenen kelimeleri değiştirmek için de kullanılabilir.
Voicebox, İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce olmak üzere altı dilde konuşmayı sentezleyebilir. Örnek konuşma ve metin farklı dillerde olsa bile, bu dillerden herhangi birinde metnin okunmasını sağlayabilir.
Voicebox’ın Microsoft’un VALL-E’sinden daha iyi performans gösterdiği ve ses örneklerini 20 kat daha hızlı ürettiği iddia edildi. “Sonuçlarımız, Voicebox tarafından üretilen sentetik konuşma üzerinde eğitilen konuşma tanıma modellerinin, önceki metinden konuşmaya sentetik konuşma ile yüzde 45 ila 70 oranında bozulmaya karşılık yüzde 1 hata oranı düşüşüyle gerçek konuşma üzerinde eğitilen modeller kadar iyi performans gösterdiğini gösteriyor. modeller”, Meta AI ayrıntılı bir şekilde Araştırma kağıdı. Ayrıca, kullanıcılara Voicebox’ın çalışmasını göstermek için birkaç ses örneği listelenmiştir.
Blogda Meta ayrıca, Voicebox’ın yukarıda bahsedilen altı dilde insanların gerçek dünyada nasıl konuştuklarını daha iyi temsil eden konuşmalar üretebileceğini iddia ediyor. Şirket, bu yeteneğin yakın gelecekte bir konuşma asistanı modelini daha iyi eğitmeye yardımcı olacak sentetik veriler oluşturmak için kullanılabileceğine inanıyor.
Voicebox şu anda geliştirilme aşamasındadır ve genel kullanıcılara açık değildir. Meta, bu teknolojinin mevcut AI yenilikleri gibi kötüye kullanım ve istenmeyen zarar potansiyeli getirdiğini fark ettiğini söylüyor. Gelecekteki bu olası riskleri azaltmak için orijinal konuşma ile Voicebox ile üretilen sesi ayırt edebilen etkili bir sınıflandırıcı üzerinde çalıştığı söyleniyor.