Bir ses tanıma girişimi, B Serisi finansmanda 62 milyon doları güvence altına aldı. Bu para nasıl kullanılacak? Bir bilgisayarın dünyadaki tüm sesleri anlamasını sağlama arayışında.

Bu kulağa çok iddialı gelmiyorsa, Siri’nin bir metin mesajı oluşturmasını sağlamak için yeterince zaman harcamamışsınızdır. Konuşma tanıma, geliştiriciler için büyük bir zorluk oldu ve çeşitli endüstrilerde yakından izlenen bir baş ağrısı. Bu teknolojinin robotik, otonom araçlar ve kişisel bilgi işlem gibi alanlarda insan-makine arayüzleri üzerinde etkileri vardır.

Bu nedenle, konuşma tanıma, teknolojik bir giriş noktasıdır, geniş rezonansa ve makinelerle etkileşim şeklimiz üzerinde hesaplanamaz etkileri olacak teknolojilerin geliştirilmesine yardımcı olabilecek bir pazar ihtiyacıdır.

Öğrenme modeli zorluğu

Bu aynı zamanda bir adalet sorunudur. Ses tanımanın şu anda dünya nüfusunun sadece küçük bir kısmı için iyi çalışması şaşırtıcı değil.

Öğrenme modeli, zorluğun büyük bir parçasıdır. Çoğu eğitim verisi manuel olarak sınıflandırılmalıdır, bu da doğruluğun yalnızca çok küçük bir hoparlör seti üzerinden elde edilebileceği anlamına gelir (şaşırtıcı olmayan bir şekilde, bu küçük set tam olarak en değerli tüketicilere karşılık gelir). konuşma bilimi daha temsili konuşma tanıma girişiminde farklı bir yaklaşım benimser.

Stanford’un “Konuşma Tanımadaki Irk Farklılıkları” çalışmasında kullanılan veri kümelerine dayanarak, Speechmatics, Afrikalı-Amerikalı sesler için Google (%68.6) ve Amazon (%68.6) ile karşılaştırıldığında %82,8 genel doğruluk kaydetti. Bu doğruluk düzeyi, konuşma tanıma hatalarında %45’lik bir azalmaya veya ortalama bir cümledeki üç kelimenin eşdeğerine eşittir.

Motoru, daha temsili olan ve insan müdahalesi gerektirmeyen etiketlenmemiş ses verileri kullanılarak yüz binlerce bireysel sese maruz bırakılır. Bu, kapsamın İngilizce konuşanların ötesine geçmesine yardımcı oldu.

CEO Katy Wigdahl, “Son birkaç yıldaki ilerleme, B Serisi bağış toplamamıza yatırımcı ilgisini ateşledi” dedi. “Speechmatics ekibi son derece iddialı. Dünyanın en yetenekli konuşma ve makine öğrenimi uzmanlarından bazılarıyla birlikte ses teknolojisinde gerçek bir mirasa sahibiz. »

34 dil referans alındı

Motor şu anda 34 dil içeriyor, çok büyük bir dilsel kovada küçük bir düşüş (dünyada konuşulan 7.000’den fazla dil var). Ancak platform, konuşma tanıma motorlarının geleneksel olarak sahip olmadığı noktalama işaretleri, sayılar, para birimleri ve adresler konusunda etkileyici adımlar attı.

Tüm bunlar, İngiltere merkezli şirket için büyük ilgi uyandırdı. Platformu 3Play Media, Veritone, Deloitte UK ve Vonage gibi şirketlerin yanı sıra dünyanın dört bir yanındaki devlet daireleri kullanıyor.

Küresel hedefleri doğrultusunda Speechmatics’in merkezi İngiltere’dedir, ancak Boston (ABD), Chennai (Hindistan) ve Brno’da (Çek Cumhuriyeti) ofisleri bulunmaktadır. Şirket, bu yatırımı ABD ve Asya-Pasifik’teki küresel genişlemesini desteklemek için kullanacak.

Kaynak : ZDNet.com



genel-15