Bir dizi farklı lehçeyi anlayabilen yapay zeka geliştirme arayışında Meta, bir yapay zeka modeli oluşturdu. SorunsuzM4T100’e yakın dili metin ve konuşma yoluyla çevirebilir ve yazıya dökebilir.

Yeni bir çeviri veri seti olan SeamlessAlign ile birlikte açık kaynak olarak sunulan Meta, SeamlessM4T’nin yapay zeka destekli konuşmadan konuşmaya ve konuşmayı metne dönüştürme alanında “önemli bir atılım” temsil ettiğini iddia ediyor.

TechCrunch ile paylaşılan bir blog yazısında Meta, “Tek modelimiz, farklı dilleri konuşan kişilerin daha etkili iletişim kurmasını sağlayan isteğe bağlı çeviriler sağlıyor” diye yazıyor. “SeamlessM4T, ayrı bir dil tanımlama modeline ihtiyaç duymadan kaynak dilleri dolaylı olarak tanıyor.”

SeamlessM4T, Meta’nın metinden metne makine çeviri modeli olan No Language Left Behind’ın ve Hokkien dilini destekleyen birkaç doğrudan konuşmadan konuşmaya çeviri sisteminden biri olan Universal Speech Translator’ın manevi bir devamı niteliğindedir. Meta’nın 1.100’den fazla dilde konuşma tanıma, dil tanımlama ve konuşma sentezi teknolojisi sağlayan çerçevesi Massively Multilingual Speech’i temel alıyor.

Gelişmiş yapay zeka çeviri ve transkripsiyon araçlarının geliştirilmesine kaynak yatırımı yapan tek kişi Meta değil.

Amazon, Microsoft, OpenAI ve bir dizi startup tarafından halihazırda mevcut olan ticari hizmetlerin ve açık kaynak modellerinin zenginliğinin ötesinde, Google, teknoloji devinin dünyada en çok konuşulan 1000 dili anlayabilen bir model oluşturma yönündeki daha büyük çabasının bir parçası olan Evrensel Konuşma Modeli adını verdiği modeli yaratıyor. Bu arada Mozilla, otomatik konuşma tanıma algoritmalarının eğitimi için en büyük çok dilli ses koleksiyonundan biri olan Common Voice’a öncülük etti.

Ancak SeamlessM4T, çeviri ve transkripsiyon yeteneklerini tek bir modelde birleştirmeye yönelik bugüne kadarki en iddialı çabalardan biri.

Meta, bunu geliştirirken halka açık metinleri (“on milyarlarca” cümle düzeyinde) ve konuşmayı (4 milyon saat) web’den çıkardığını söylüyor. Meta’nın yapay zeka araştırma bölümünde araştırma bilimcisi olan ve projeye katkıda bulunanlardan biri olan Juan Pino, TechCrunch ile yaptığı röportajda, verilerin kesin kaynaklarını açıklamadı ve yalnızca bunların “çeşitli” olduğunu söyledi.

Her içerik oluşturucu, ticari olarak kullanılabilecek modelleri eğitmek için kamuya açık verilerden yararlanma uygulamasını kabul etmez. Bazıları, satıcıların tazminat olmasa bile kredi vermeye mecbur olmaları ve vazgeçmenin açık yollarını öne sürerek, kamuya açık veriler üzerine yapay zeka araçları geliştiren şirketlere karşı dava açtı.

Ancak Meta, çıkardığı verilerin (şirketin kabul ettiği gibi kişisel olarak tanımlanabilir bilgiler içerebileceğini) telif hakkıyla korunmadığını ve öncelikle açık kaynak veya lisanslı kaynaklardan geldiğini iddia ediyor.

Durum ne olursa olsun Meta, SeamlessM4T için SeamlessAlign adı verilen eğitim veri setini oluşturmak için alıntılanan metni ve konuşmayı kullandı. Araştırmacılar, 443.000 saatlik konuşmayı metinlerle hizaladı ve 29.000 saatlik “konuşma-konuşma” hizalaması oluşturdu; bu, SeamlessM4T’ye konuşmayı metne nasıl dönüştüreceğini, metni nasıl çevireceğini, metinden konuşmayı nasıl oluşturacağını ve hatta bir dilde konuşulan kelimeleri başka bir dile nasıl çevireceğini “öğretti”. Başka bir dildeki kelimeler.

Meta, dahili bir kıyaslamada, SeamlessM4T’nin, mevcut son teknoloji konuşma transkripsiyon modeliyle karşılaştırıldığında, konuşmayı metne dönüştürme görevlerinde arka plandaki gürültülere ve “hoparlör değişikliklerine” karşı daha iyi performans gösterdiğini iddia ediyor. Bunu, Meta’nın SeamlessM4T’ye yalnızca konuşma ve yalnızca metin modellerine göre bir avantaj sağladığına inandığı eğitim veri setindeki zengin konuşma ve metin verileri kombinasyonuna bağlıyor.

Meta, blog yazısında şunları yazdı: “Son teknoloji sonuçlarla SeamlessM4T’nin, AI topluluğunun evrensel çoklu görev sistemleri yaratma arayışında önemli bir atılım olduğuna inanıyoruz.”

Ancak modelin ne gibi önyargılar içerebileceği merak ediliyor.

son zamanlarda parça The Conversation’da, cinsiyet yanlılığının farklı biçimleri de dahil olmak üzere yapay zeka destekli çevirideki birçok kusura dikkat çekiliyor. Örneğin, Google Translate bir zamanlar belirli dillerde doktorların erkek, hemşirelerin ise kadın olduğunu varsayıyordu; Bing’in tercümanı ise “masa yumuşak” gibi ifadeleri Almanca’daki dişil “die Tabelle” olarak tercüme etti ve bu da rakamlar tablosunu ifade ediyordu.

Konuşma tanıma algoritmaları da sıklıkla önyargılar içerir. A çalışmak Ulusal Bilimler Akademisi Bildiriler Kitabı’nda yayınlanan çalışma, önde gelen şirketlerin konuşma tanıma sistemlerinin, beyaz konuşmacılara kıyasla Siyah konuşmacılardan gelen sesi hatalı şekilde yazıya dönüştürme olasılığının iki kat daha fazla olduğunu gösterdi.

Şaşırtıcı olmayan bir şekilde, SeamlessM4T bu açıdan benzersiz değildir.

Blog gönderisiyle birlikte yayınlanan teknik incelemede Meta, modelin “nötr terimlerden çeviri yaparken eril formlara aşırı genelleme yaptığını” ve çoğu dil için eril referanstan (örneğin, İngilizce’de “he” gibi isimler) çeviri yaparken daha iyi performans gösterdiğini ortaya koyuyor.

Dahası, Meta, cinsiyet bilgisinin yokluğunda, SeamlessM4T’nin eril biçimi %10 oranında çevirmeyi tercih ettiğini düşünüyor; bunun nedeninin muhtemelen eğitim verilerinde “eril sözlüğün aşırı temsil edilmesi” olduğunu düşünüyor.

Meta, SeamlessM4T’nin çevirilerine aşırı miktarda toksik metin eklemediğini öne sürüyor. yaygın sorun genel olarak çeviri ve üretken yapay zeka metin modelleriyle. Ama mükemmel değil. Bengalce ve Kırgızca gibi bazı dillerde SeamlessM4T, sosyoekonomik durum ve kültür hakkında daha zararlı çeviriler (yani nefret dolu veya küfürlü çeviriler) yapıyor. Ve genel olarak SeamlessM4T, cinsel yönelim ve din ile ilgili çevirilerde daha zehirlidir.

Meta, SeamlessM4T’nin halka açık demosunun, girilen konuşmadaki toksisite için bir filtrenin yanı sıra, potansiyel olarak toksik çıktılı konuşma için bir filtre içerdiğini belirtiyor. Ancak bu filtre, modelin açık kaynak sürümünde varsayılan olarak mevcut değildir.

Teknik incelemede ele alınmayan yapay zeka çevirisiyle ilgili en büyük sorun, sözcük zenginliği bu onların aşırı kullanımından kaynaklanabilir. Yapay zekanın aksine insan tercümanlar, bir dili diğerine çevirirken kendilerine özgü seçimler yapar. Gayri resmi olarak “çeviri” olarak bilinen parmak izleri oluşturarak açıklayabilir, normalleştirebilir veya yoğunlaştırıp özetleyebilirler. Yapay zeka sistemleri daha “doğru” çeviriler üretebilir, ancak bu çeviriler çeviri çeşitliliği ve çeşitliliği pahasına da olabilir.

Meta’nın, devlet kurumları ve çeviri otoriteleri tarafından tanınanlar gibi uzun biçimli çeviriler ve onaylı çeviriler için SeamlessM4T’nin kullanılmamasını tavsiye etmesinin nedeni muhtemelen budur. Meta aynı zamanda SeamlessM4T’nin tıbbi veya yasal amaçlarla kullanılmasını da önermiyor; bu, muhtemelen yanlış çeviri durumunda temellerini örtme girişimidir.

Bu akıllıca; en azından bir tane var bir kaç Yapay zekanın yanlış tercümelerinin kolluk kuvvetlerinin hatalarına yol açtığı durumlar. Eylül 2012’de polis yanlışlıkla Yanlış çevrilmiş bir kısa mesaj nedeniyle bir Kürt adamla terörü finanse ettiği iddiasıyla karşı karşıya geldi. Ve 2017’de Kansas’taki bir polis, İspanyolca konuşan bir kişiye arabasında uyuşturucu araması yapıp yapamayacağını sormak için Google Çeviri’yi kullandı, ancak çeviri hatalı olduğu için sürücü neyi kabul ettiğini tam olarak anlamadı ve dava sonuçlandı. sonunda dışarı atıldı.

Pino, “Bu tek sistem yaklaşımı, hataları ve gecikmeleri azaltarak çeviri sürecinin verimliliğini ve kalitesini artırarak bizi kusursuz çeviriyi mümkün kılmaya yaklaştırıyor” dedi. “Gelecekte, bu temel modelin yeni iletişim yeteneklerini nasıl mümkün kılabileceğini ve sonuçta bizi herkesin anlaşılabileceği bir dünyaya nasıl yaklaştırabileceğini keşfetmek istiyoruz.”

Umarız insanlar bu gelecekte döngünün tamamen dışında kalmazlar.



genel-24