Cohere, Perşembe günü ilk ses modelini tanıttı: Transcribe, not almayı ve konuşma analizini destekleyen açık kaynaklı bir otomatik konuşma tanıma modelidir.
Sadece 2 milyar parametre ile görece hafif olan bu model, kendi sunucularında barındırmak isteyenler için tüketici sınıfı GPU’larla kullanım için tasarlanmıştır. Şu anda İngilizce, Fransızca, Almanca, İtalyanca, İspanyolca, Portekizce, Yunanca, Felemenkçe, Lehçe, Çince, Japonca, Korece, Vietnamca ve Arapça dahil 14 dili desteklemektedir.
Cohere, Transcribe’ın Hugging Face Open ASR liderlik tablosunda Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 ve Qwen3-ASR-1.7B gibi modelleri geride bıraktığını belirtiyor ve modelin ortalama kelime hata oranının (WER) 5.42 olduğunu, bu sayede diğer modellerden daha iyi performans sergilediğini vurguluyor.
Şirket, Transcribe’ın insan değerlendiricilerin doğruluk, tutarlılık ve kullanılabilirlik açısından yaptığı değerlendirmelerde diğer modellere kıyasla %61’lik bir başarı oranı elde ettiğini iddia ediyor. Ancak, model, Portekizce, Almanca ve İspanyolca transkripsiyonlarında rakiplerinin gerisinde kaldı.
Cohere, Transcribe’ın bir dakikada 525 dakika ses işleyebildiğini, bunun da bu sınıftaki model için oldukça yüksek olduğunu açıkladı.
Şirket, Transcribe’ı kurumsal ajan orkestrasyon platformu olan North‘a entegre etmeyi planlıyor ve modeli ücretsiz olarak kendi APIsi üzerinden erişime sunuyor. Model ayrıca, Cohere’nin yönetilen çıkarım platformu olan Model Vault‘ta da bulunacak.
Ses tanıma modelleri, Granola ve Wispr Flow gibi not alma ve dikte uygulamalarına olan talebin artmasıyla birlikte giderek daha popüler hale geliyor.
Bu yılın başlarında, Cohere’in yatırımcılara 2025 yılında yıllık tekrarlayan gelirinin 240 milyon dolar olduğunu bildirdiği ve CEO’su Aidan Gomez’in startup’ın “yakında” halka açılabileceğini belirttiği haberleri ortaya çıktı.

