ElevenLabs180 milyon dolarlık bir mega finansman turu toplayan bir AI girişimi, öncelikle ses nesil gücü ile biliniyor. Şirket, Scribe adlı ilk bağımsız konuşma-metin modelini başlatarak başka bir teknolojik yönde bir adım attı.
3,3 milyar dolar değerinde başlangıç, diğer birçok şirkete geniş ses kütüphanesi aracılığıyla metin-metin hizmetleri sunma konusunda yardımcı oldu. Ancak, şirket şimdi konuşma tespitine girmek ve Gladia, Speckmatics gibi şeylerle rekabet etmek istiyor, MontajDeepgram ve Openai’nin Fısıltı Modelleri.
ElevenLabs ‘Scribe modeli lansmanda 99’dan fazla dili destekliyor. Şirket, kelime hata oranının%5’ten az olduğu model için 25’den fazla dili mükemmel doğruluk kategorisinde sınıflandırıyor. Bu liste İngilizce (iddia edilen%97 doğruluk oranı), Fransızca, Almanca, Hintçe, Endonezya, Japon, Kannada, Malayalam, Lehçe, Portekizce, İspanyolca ve Vietnamca yer almaktadır. Diğer diller yüksek (% 5 ila% 10 kelime hata oranı), iyi (% 10 ila% 20 kelime hata oranı) ve orta (% 25 ila% 50) kelime hata oranlarına sahip farklı kategorilerde sıralanır.
Şirket, modelin Google Gemini 2.0 Flash’tan daha iyi performans gösterdiğini ve Fleurs & Common Voice Benchmark testlerindeki birden fazla dilde büyük V3’ü fısıldadığını söyledi.

ElevenLabs, geçen yıl piyasaya sürülen AI Konuşma Ajanı platformu için konuşma-metin bileşenini geliştirmişti. Ancak, bu ilk kez Şirket bağımsız bir konuşma tespit modeli yayınlıyor. Geçen ay TechCrunch ile yapılan bir konuşmada, CEO Mati Staniszewski konuşma tespit modellerini geliştirmekten bahsetti.
“Bir konuşmada sizin tarafınızdan ne söylendiğini daha iyi anlamak istiyoruz. Yalnızca içerik ve anlayış ve konuşma oluşturmaktan uzaklaşmanın yolları üzerinde çalışıyoruz, ”dedi Staniszewski o zaman. “Birçok insan metn-metnin çözülmüş bir sorun olduğunu söylüyor. Ancak birçok dil için oldukça kötü. Daha iyi konuşma tespit modelleri oluşturabileceğimizi düşünüyoruz çünkü verilere ek açıklama yapmak ve bize hızlı geri bildirim vermek için şirket içi ekiplerimiz var. ”
Model ayrıca, kimin konuştuğunu söylemek için akıllı hoparlör diyarizasyonuna, doğru altyazılar için kelime seviyesinde zaman damgası ve seyirciler gibi otomatik etiketleme ses etkinliklerine sahiptir. Başlangıç, müşterilerin stüdyosuna altyazılar veya altyazılar eklemek için doğrudan video içeriğini yazmaları için bir yol sunuyor.
Scribe şu anda yalnızca önceden kaydedilmiş ses formatları ile çalışır. Şirket, yakında modelin düşük gecikmeli gerçek zamanlı bir versiyonunu yayınlayacağını söyledi. Bu, transkripsiyonları veya sesli not almayı karşılamak için henüz etkili olmadığı anlamına gelir.
ElevenLabs, bir saatlik kopyalı ses için 0,40 $ ‘dan fiyatlandırıyor. Oran rekabetçi olsa da, Bazı rakipleri Daha düşük bir fiyat teklif edin Şu anda bazı özellik farklılaşmalarıyla ses transkripsiyonları için.

