Geçen hafta, birinin konuşmasının aksanını gerçek zamanlı olarak değiştirebilen bir teknoloji geliştiren bir yapay zeka girişimi hakkında yazmıştım. Peki ya yapay zekanın amacı, insanların her ne şekilde konuşurlarsa konuşsunlar, oldukları gibi anlaşılmalarını sağlamak ve bu süreçte birçok yapay zeka sisteminin doğasında var olan bazı önyargıları ortadan kaldırmaksa? Buna da büyük bir ihtiyaç var ve şimdi İngiltere’de bir startup konuşma bilimi Aksandan veya kişinin nasıl konuştuğundan bağımsız olarak konuşmayı metne çevirmek için yapay zekayı geliştiren şirket, işini genişletmek için 62 milyon dolarlık bir fon duyuruyor.

ABD dışından Susquehanna Growth Equity, İngiltere’deki yatırımcılarla turu yönetti AlbionVC ve IQ Capital de katılıyor. Bu, B Serisi, Speechmatics için büyük bir adımdır. Şirket ilk olarak 2006’da Cambridge’de kurucu Dr. Tony Robinson tarafından yapay zeka araştırması için kuruldu ve bundan önce sadece yaklaşık 10 milyon dolar topladı (Albion ve IQ, CIA destekli In-Q ile birlikte geçmişteki destekçiler arasındaydı) -Tel ve diğerleri).

Bu arada yaklaşık 170 kişilik bir müşteri tabanı oluşturdu – tüketiciye yönelik veya işletmeye yönelik hizmetleri desteklemek için yalnızca B2B satıyor – ve tam listeyi açıklamasa da, bazı isimler what3words, 3Play Media, Veritone, Deloitte UK ve Vonage, teknolojiyi yalnızca geleneksel anlamda transkripsiyon yapmak için değil, çeşitli şekillerde kullanır; ancak otomatik altyazı oluşturma gibi bir uygulama işlevinin diğer yönlerine yardımcı olmak veya daha geniş erişilebilirlik özelliklerini güçlendirmek için konuşulan kelimeleri almak için.

Bugün motoru, konuşmayı 34 dilde metne çevirebiliyor ve finansmanı hem oradaki doğruluğu artırmaya devam etmek hem de iş geliştirme için kullanmanın yanı sıra, daha fazla dilde ekleme yapacak ve farklı kullanım durumlarına bakacak. Motorlu taşıtların daha zorlu ortamında (motor gürültüsü ve titreşimlerin AI’ların sesleri nasıl yutabileceğini etkilediği) kullanılabilecek metne konuşma oluşturma olarak.

“Yaptığımız şey, AI önyargısını ele alma çabamızda milyonlarca saatlik veri toplamak. Hedefimiz, her sesi birden çok dilde anlamak,” diyor girişimin CEO’su Katy Wigdahl (son zamanlarda yönetici rolünden geri adım atan Robinson ile birlikte sahip olduğu bir unvan).

Bu, şirketin ürün odağında olduğu kadar misyonunda da kendini gösteriyor ve bu aynı zamanda genişletmek istediği bir şey.

Wigdahl, “Dile bakma şeklimiz küresel” dedi. “Google’ın her İngilizce sürümü için farklı bir paketi olacak ama bizim tek paketimiz her birini anlayacak.” Başlangıçta teknolojisini yalnızca müşterilere sattığı özel bir API aracılığıyla kullanıma sundu; şimdi daha fazla kullanıcı ve potansiyel olarak daha fazla ödeme yapan kullanıcı getirme çabasıyla, geliştiricilere teknolojiyle oynamaları için daha fazla açık API aracı ve sitesinde bir sürükle ve bırak örnekleyici sunuyor.

Ve gerçekten de, Speechmatics’in zorluklarından biri, AI’yı insanların nasıl konuştuğunu anlama konusunda daha insani olması için eğitmekse, diğeri, konuşmadan metne teknolojisinin diğer büyük sağlayıcılarına karşı kendisi için bir isim oymaktır.

Wigdahl, şirketin bugün “büyük teknoloji” ile rekabet ettiğini söyledi – yani, konuşma tanıma motorları oluşturan ve teknolojiyi üçüncü taraflara bir hizmet olarak sunan Amazon, Google ve Microsoft (şu anda Nuance’a sahip) gibi büyük şirketler.

Ancak, dillerin olduğu gibi birçok şekilde konuşulduğunu anlayabilmek için testlerde sürekli olarak bunlardan daha iyi puan aldığını söylüyor. (Bana atıfta bulunduğu testlerden biri Stanford’un ‘Irk Eşitsizliği’ idi. Konuşma Tanıma’ çalışması, nerede “Google (%68.6) ve Amazon’a (68.6) kıyasla Afrika kökenli Amerikalı sesler için genel olarak %82.8 doğruluk” kaydetti. “% 45’lik bir azalmaya eşittir” dedi. konuşma tanıma hataları – ortalama bir cümledeki üç kelimenin eşdeğeri. Ayrıca TC’ye “rakip ağırlıklı ortalama” sağladı:

Küçük geliştiriciler ile Apple, Google, Microsoft ve Amazon gibi büyük, büyük teknoloji devleri arasında, tam olarak bu düzeyde (veya ilgi alanında) olmayabilecek yüzlerce dev şirket olduğunu düşündüğünüzde, burada gerçekten büyük bir fırsat var. ama örneğin Spotify gibi bir şirketi ele alırsanız, kesinlikle bununla ilgileniyor ve kesinlikle bazen rakipleri, bazen de onların rakibi olan bu büyük şirketlere güvenmemeyi tercih ediyor. doğrudan folyolar. (Açık olmak gerekirse, Wigdahl bana Spotify’ın bir müşteri olduğunu söylemedi, ancak bunun birisinin Speechmatics’in kapısını çalabileceği türden boyut ve durumun tipik bir örneği olduğunu söyledi.)

Bu da kısmen, yatırımcıların bu şirketi finanse etmeye bu kadar hevesli olmasının nedenidir. Susquehanna, güçlü oyunculara paraları için bir şans verebilecek gibi görünen şirketleri destekleme geçmişine sahiptir (Tik Tok’un erken ve büyük bir destekçisiydi).

Susquehanna Growth Equity’den MD Jonathan Klahr yaptığı açıklamada, “Speechmatics ekibi şüphesiz teknoloji uzmanlarının farklı bir soyağacıdır” dedi. “Portföy şirketlerimiz Speechmatics’in ‘Big Tech’ oyuncularından gelenler de dahil olmak üzere diğer tüm seçeneklere karşı doğruluk konusunda tekrar tekrar kazandığını söylediğinde Speechmatics’i izlemeye başladık. Daha fazla şirketin bu üstün teknolojiye maruz kalmasını ve benimsemesini sağlamak için ekiple çalışmaya hazırız.” Klahr bu turla yönetim kuruluna katılıyor.

Gerçekten de, teknoloji daha doğal hale geldikçe ve bu teknolojinin kullanımıyla ilgili olabilecek her türlü sürtünmeyi azaltmak için daha fazla yol aramaya başladıkça, ses hem büyük bir fırsat noktası hem de bir acı noktası olarak ortaya çıktı. Bu nedenle, her türlü sesi “okuma” ve anlama konusunda çalışan teknolojiye sahip olmak, potansiyel olarak her türlü şekilde uygulanabilir.

Bir ortak olan Robert Whitby-Smith, “Görüşümüz, sesin giderek daha baskın olan insan-makine arayüzü haline geleceği ve Speechmatics’in, sektör kullanım durumu ve gereksinimleri genelinde kategori tanımlama doğruluğu ve anlayışıyla konuşmaya derin öğrenmeyi uygulama konusunda kategori lideri olması” dedi. AlbionVC’de. 2019’daki A Serisi yatırımımızdan bu yana son birkaç yılda ekibin ve ürünün etkileyici büyümesine tanık olduk ve sorumlu yatırımcılar olarak, şirketin küresel olarak her sesi anlamaya yönelik kapsayıcı misyonunu desteklemekten mutluluk duyuyoruz.”



genel-24