OpenAI, Perşembe günü, geliştiricilerin kullanıcılarla konuşabilen, transkripte edebilen ve çeviri yapabilen uygulamalar oluşturmasına yardımcı olacak yeni ses zekâsı özelliklerini API’sine ekleyeceğini duyurdu.
Şirketin yeni GPT-Realtime-2 modeli, kullanıcılara gerçekçi ses simülasyonu yaratmak üzere tasarlandı. Ancak, selefi olan GPT-Realtime-1.5’in aksine, bu model kullanıcıların daha karmaşık talepleriyle başa çıkabilmek için GPT-5 sınıfı akıl yürütme ile donatılmış durumda.
Ayrıca, OpenAI, tıpkı isminin belirttiği gibi, kullanıcıyla “ayağına uyan” gerçek zamanlı çeviri hizmeti sunmak amacıyla geliştirilen GPT-Realtime-Translate hizmetini de hayata geçiriyor. Bu özellik, 70’ten fazla girdi dilini (anlayabildiği diller) ve 13 çıktı dilini (dinleyiciye ilettiği diller) kapsıyor.
Son olarak, şirket, kullanıcıların etkileşim sırasında gerçek zamanlı olarak konuşmadan yazıya dönüştürme yetenekleri sunan yeni bir transkripte etme özelliği olan GPT-Realtime-Whisper’ı da tanıttı.
“Pazara sunduğumuz modeller, gerçek zamanlı sesli iletişimi basit bir soru-cevap ortamından sesi dinleyebilen, akıl yürütebilen, çevirebilen, transkripte edebilen ve bir konuşma sırasında harekete geçebilen etkileşimli ses arayüzlerine taşır,” dedi şirket.
Bu güncellemeler kimler için faydalı olacak? Müşteri hizmetleri yeteneklerini genişletmek isteyen şirketler, bariz hedeflerden biri. Ancak OpenAI, yeni özelliklerinin eğitim, medya, etkinlikler ve içerik üretimi platformları gibi birçok alanda da yardımcı olacağını belirtiyor.
Bu araçlar, işletmeler açısından ne kadar faydalı görünse de, kötüye kullanılabileceği de bir gerçek. Şirket, yeni özelliklerinin spam, dolandırıcılık veya diğer çevrimiçi kötüye kullanımlar amacıyla istismar edilmesini önleyecek koruyucu önlemler oluşturduğunu ifade etti. Sistem içerisinde, “zararlı içerik kurallarımıza aykırı olduğu tespit edilen konuşmaların durdurulabilmesi için belirli tetikleyiciler yerleştirildi,” şeklinde bilgi verdi OpenAI.
Tüm yeni ses modelleri, OpenAI’nin Realtime API’si içinde yer alıyor. Translate ve Whisper, dakikalarla faturalandırılırken, GPT-Realtime-2, token tüketimi üzerinden ücretlendirilmekte.

