OpenAI, ChatGPT API’nin kullanıma sunulmasıyla aynı zamana denk gelecek şekilde, şirketin Eylül ayında piyasaya sürdüğü açık kaynaklı Whisper konuşmayı metne dönüştürme modelinin barındırılan bir sürümü olan Whisper API’yi bugün başlattı.

Dakikası 0,006 ABD Doları olarak fiyatlandırılan Whisper, OpenAI’nin birden çok dilde “sağlam” transkripsiyona ve bu dillerden İngilizceye çeviriye olanak sağladığını iddia ettiği otomatik bir konuşma tanıma sistemidir. M4A, MP3, MP4, MPEG, MPGA, WAV ve WEBM gibi çeşitli biçimlerdeki dosyaları alır.

Sayısız kuruluş, Google, Amazon ve Meta gibi teknoloji devlerinin sunduğu yazılım ve hizmetlerin merkezinde yer alan, son derece yetenekli konuşma tanıma sistemleri geliştirdi. Ancak Whisper’ı farklı kılan şey, OpenAI başkanı ve başkanı Greg Brockman’a göre web’den toplanan 680.000 saatlik çok dilli ve “çoklu görev” verileri üzerinde eğitilmiş olması ve bu da benzersiz aksanların, arka plan gürültüsünün ve teknik jargonun daha iyi tanınmasına yol açıyor.

Dün öğleden sonra TechCrunch ile yaptığı bir video görüşmesinde Brockman, “Bir model yayınladık, ancak bu aslında tüm geliştirici ekosisteminin onun etrafında inşa edilmesine neden olmak için yeterli değildi” dedi. “Whisper API, açık kaynak alabileceğiniz büyük modelin aynısıdır, ancak biz en uç noktaya kadar optimize ettik. Çok, çok daha hızlı ve son derece kullanışlı.”

Brockman’a göre, ses transkripsiyon teknolojisini benimseyen işletmeler söz konusu olduğunda, önünde pek çok engel var. 2020 Statista’ya göre anketşirketler, teknolojiden konuşmaya gibi teknolojileri benimsememelerinin en önemli nedenleri olarak doğruluk, aksan veya lehçe ile ilgili tanıma sorunları ve maliyeti belirtiyor.

Yine de Whisper’ın sınırlamaları vardır – özellikle “sonraki kelime” tahmini alanında. Sistem, büyük miktarda gürültülü veri üzerinde eğitildiğinden, OpenAI, Whisper’ın transkripsiyonlarına gerçekte konuşulmayan sözcükler ekleyebileceği konusunda uyarıyor – muhtemelen hem sesteki bir sonraki kelimeyi tahmin etmeye hem de ses kaydını kendisi yazmaya çalıştığı için. Ayrıca Whisper, eğitim verilerinde iyi temsil edilmeyen dillerin konuşmacıları söz konusu olduğunda daha yüksek bir hata oranından muzdarip olduğu için diller arasında eşit derecede iyi performans göstermez.

Bu son kısım maalesef konuşma tanıma dünyasında yeni bir şey değil. Önyargılar, 2020 Stanford ile en iyi sistemleri bile uzun süredir rahatsız ediyor çalışmak Amazon, Apple, Google, IBM ve Microsoft’tan sistemler bulmak, beyaz olan kullanıcılarda, Siyah olanlara göre çok daha az hata (yaklaşık %19) yaptı.

Buna rağmen OpenAI, Whisper’ın transkripsiyon yeteneklerinin mevcut uygulamaları, hizmetleri, ürünleri ve araçları iyileştirmek için kullanıldığını görüyor. Yapay zeka destekli dil öğrenme uygulaması Speak, yeni bir uygulama içi sanal konuşma yardımcısına güç sağlamak için Whisper API’yi zaten kullanıyor.

OpenAI, metin okuma pazarına büyük bir şekilde girebilirse, Microsoft destekli şirket için oldukça karlı olabilir. Binaen Allied Market Research’e göre segment, 2021’de 2,8 milyar dolardan 2031’e kadar 12,5 milyar dolar değerinde olabilir.

Brockman, “Resmimiz, gerçekten bu evrensel zeka olmak istediğimizdir” dedi. “WGerçekten, çok esnek bir şekilde, sahip olduğunuz her tür veriyi – gerçekleştirmek istediğiniz görev türü ne olursa olsun – alabilmeyi ve bu dikkat üzerinde güç çarpanı olmayı gerçekten istiyoruz.



genel-24