Meta'nın güncellenmiş yapay zekası, metinden konuşmaya dönüştürmeyi daha kusursuz ve etkileyici hale getiriyor

Meta, Ağustos ayında SeamlessM4T adlı multimodal AI çeviri modelini tanıttı. Bu araç, metin için neredeyse 100 dili ve konuşma için 36 dili destekler. Artık güncellenmiş bir “v2” mimarisiyle şirket, konuşma çevirilerini daha spontane ve anlamlı hale getirmek için aracın yeteneklerini genişletiyor. Anlamlı çevirilerin eksikliği şu ana kadar büyük bir zorluk olduğundan, bu, diller arasında daha özgün konuşmalar yapılmasına yönelik çok önemli bir adımdır.

SeamlessM4T, çeşitli konuşma ve metin işlevleri arasında sorunsuz bir şekilde çeviri yapmak ve yazıya dönüştürmek için tasarlanmıştır. Konuşmadan metne ve metinden metne işlevleri için yaklaşık 100 dili çevirebilir ve aynı dillerde konuşmadan konuşmaya ve metinden konuşmaya özelliklerini destekler. Ayrıca çevirilerin çıktısını İngilizce de dahil olmak üzere diğer 36 dilden herhangi birinde verebilir.

İki yeni özellikten ilkine “Sorunsuz İfade Edici” adı veriliyor. Adından da anlaşılacağı üzere konuşmanızla birlikte ifadelerinizin de tercüme edilmesini sağlar. Bu, perdenizi, ses tonunuzu, duygusal tonunuzu (örneğin heyecan, üzüntü veya fısıltılar), konuşma hızınızı ve duraklamalarınızı içerir. Bu, tercüme edilen konuşmaların kulağa daha az robotik ve daha doğal gelmesini sağlar. Bu özellik İngilizce, İspanyolca, Almanca, Fransızca, İtalyanca ve Çince dahil olmak üzere birçok dili desteklemektedir.

İkinci özelliğe “Kesintisiz Akış” adı verilir. Aracın, konuşmacı hala konuşurken konuşmayı çevirmeye başlamasını sağlar ve diğerlerinin çeviriyi daha hızlı duymasını sağlar. İki saniyenin biraz altındaki kısa bir gecikme olmasına rağmen, birisinin cümlesini bitirmesini bekleme ihtiyacını ortadan kaldırır. Buradaki zorluk, farklı dillerin farklı cümle yapılarına sahip olmasıdır; bu nedenle Meta’nın, çevrilmiş bir çıktı oluşturmaya başlamak için yeterli bağlam olup olmadığını veya dinlemeye devam etmesi gerekip gerekmediğini belirlemek için kısmi ses girdisini inceleyebilecek bir algoritma geliştirmesi gerekiyordu.

SeamlessM4T, mevcut PyTorch tabanlı çoklu görev UnitY model mimarisi üzerine geliştirilmiştir. Bu mimari zaten otomatik konuşma tanımanın yanı sıra farklı modal çevirileri de gerçekleştirme yeteneğine sahip. Ek olarak model, ses kodlaması için girdileri analiz için bileşen belirteçlerine ayıran BERT 2.0 sistemini ve sesli yanıtlar oluşturmak için bir HiFi-GAN birimi ses kodlayıcısını kullanıyor.

FacebookheyecanLinkedIn



makalenin sonu



genel-9