
Openai, Perşembe günü, Uygulama Programlama Arayüzü’nde (API) doğruluk ve güvenilirlikte gelişmiş performans sunan yeni ses modelleri tanıttı. San Francisco merkezli AI firması, hem konuşma-metin transkripsiyonu hem de metin-konuşma (TTS) işlevi için üç yeni yapay zeka (AI) modeli yayınladı. Şirket, bu modellerin geliştiricilerin aracı iş akışlarıyla uygulamalar oluşturmasını sağlayacağını iddia etti. Ayrıca API’nın işletmelerin müşteri desteği benzeri operasyonları otomatikleştirmesini sağlayabileceğini belirtti. Özellikle, yeni modeller şirketin GPT-4O ve GPT-4O Mini AI modellerine dayanmaktadır.
Openai API’da yeni ses modelleri getiriyor
Bir Blog yazısıAI firması yeni API’ye özgü AI modellerini detaylandırdı. Şirket, yıllar boyunca operatör, derin araştırma, bilgisayar kullanan ajanlar ve yerleşik araçlarla yanıtlar API gibi birkaç AI ajanı yayınladığını vurguladı. Bununla birlikte, ajanların gerçek potansiyelinin sadece sezgisel performans gösterebildiklerinde ve metnin ötesindeki ortamlar arasında etkileşime girebildiklerinde açılabileceğini de sözlerine ekledi.
Üç yeni ses modeli var. GPT-4O-transcribe ve GPT-4O-Mini-Transcribe, konuşma-metin modelleri ve GPT-4O-Mini-TTS, adından da anlaşılacağı gibi bir TTS modelidir. Openai, bu modellerin 2022’de piyasaya sürülen mevcut fısıltı modellerinden daha iyi performans gösterdiğini iddia ediyor. Ancak, eski modellerden farklı olarak, yenileri açık kaynaklı değil.
GPT-4O-transcribe’ye gelen AI firması, AI modellerini 100 dilde çok dilli konuşmada test eden Konuşma (Fleurs) karşılaştırmasının evrensel temsillerinin az sayıdaki öğrenme değerlendirmesinde gelişmiş “kelime hata oranı” (WER) performansını sergilediğini belirtti. Openai, iyileştirmelerin takviye öğrenimi (RL) ve yüksek kaliteli ses veri kümeleri ile kapsamlı orta eğitim gibi hedeflenen eğitim tekniklerinin bir sonucu olduğunu söyledi.
Bu konuşma-metin modelleri, ağır aksanlar, gürültülü ortamlar ve değişen konuşma hızları gibi zorlu senaryolarda bile ses yakalayabilir.
GPT-4O-Mini-TTS modeli de önemli gelişmelerle birlikte gelir. AI firması, modellerin özelleştirilebilir bükülmeler, tonlamalar ve duygusal ifade ile konuşabileceğini iddia ediyor. Bu, geliştiricilerin müşteri hizmetleri ve yaratıcı hikaye anlatımı da dahil olmak üzere çok çeşitli görevler için kullanılabilecek uygulamalar oluşturmalarını sağlayacaktır. Özellikle, model sadece yapay ve önceden ayarlanmış sesler sunar.
Openai’nin API Fiyatlandırması sayfa GPT-4O tabanlı ses modelinin milyon giriş jetonları başına 40 $ (kabaca Rs. Öte yandan, GPT-4O mini tabanlı ses modelleri, milyon giriş jetonları başına 10 $ (kabaca Rs. 860) ve milyon çıktı jetonları başına 20 $ (kabaca 1.720 Rs) oranında tahsil edilecektir.
Tüm ses modelleri artık API üzerinden geliştiriciler için kullanılabilir. Openai ayrıca, kullanıcıların ses ajanları oluşturmalarına yardımcı olmak için Agents Yazılım Geliştirme Kiti (SDK) ile bir entegrasyon yayınlıyor.

