OpenAI, Salı günü ChatGPT’nin Gelişmiş Ses Modunu kullanıma sunmaya başladı ve kullanıcılara GPT-4o’nun hiper gerçekçi sesli yanıtlarına ilk erişimlerini sağladı. Alfa sürümü bugün küçük bir ChatGPT Plus kullanıcı grubuna sunulacak ve OpenAI, özelliğin 2024 sonbaharında kademeli olarak tüm Plus kullanıcılarına sunulacağını söylüyor.

OpenAI, GPT-4o’nun sesini ilk kez Mayıs ayında sergilediğinde, özellik izleyicileri hızlı tepkileri ve gerçek bir insanın sesine olan inanılmaz benzerliğiyle şok etti – özellikle bir sese. Sky adlı ses, “Her” filmindeki yapay asistanın arkasındaki aktris Scarlett Johansson’un sesine benziyordu. OpenAI’nin demosundan kısa bir süre sonra Johansson, CEO Sam Altman’ın sesini kullanması için yaptığı çok sayıda talebi reddettiğini ve GPT-4o’nun demosunu gördükten sonra benzerliğini savunmak için hukuk müşaviri tuttuğunu söyledi. OpenAI, Johansson’un sesini kullandığını reddetti, ancak daha sonra demosunda gösterilen sesi kaldırdı. Haziran ayında OpenAI, güvenlik önlemlerini iyileştirmek için Gelişmiş Ses Modu’nun yayınlanmasını erteleyeceğini söyledi.

Bir ay sonra, bekleyiş sona erdi (bir nevi). OpenAI, Bahar Güncellemesi sırasında sergilenen video ve ekran paylaşımı yeteneklerinin bu alfa sürümünün bir parçası olmayacağını ve “daha sonraki bir tarihte” yayınlanacağını söylüyor. Şimdilik, herkesi büyüleyen GPT-4o demosu hala sadece bir demo, ancak bazı premium kullanıcılar artık orada gösterilen ChatGPT’nin ses özelliğine erişebilecek.

ChatGPT artık konuşabiliyor ve dinleyebiliyor

ChatGPT’de şu anda mevcut olan Ses Modunu denemiş olabilirsiniz, ancak OpenAI Gelişmiş Ses Modunun farklı olduğunu söylüyor. ChatGPT’nin sese yönelik eski çözümü üç ayrı model kullanıyordu: biri sesinizi metne dönüştürmek için, GPT-4 isteminizi işlemek için ve sonra üçüncüsü ChatGPT’nin metnini sese dönüştürmek için. Ancak GPT-4o çok modludur, bu görevleri yardımcı modellerin yardımı olmadan işleyebilir ve önemli ölçüde daha düşük gecikmeli konuşmalar yaratır. OpenAI ayrıca GPT-4o’nun sesinizdeki üzüntü, heyecan veya şarkı söyleme gibi duygusal tonlamaları algılayabileceğini iddia ediyor.

Bu pilotta, ChatGPT Plus kullanıcıları OpenAI’nin Gelişmiş Ses Modu’nun ne kadar hiper gerçekçi olduğunu ilk elden görecekler. TechCrunch bu makaleyi yayınlamadan önce özelliği test edemedi, ancak erişim sağladığımızda inceleyeceğiz.

OpenAI, kullanımını yakından izlemek için ChatGPT’nin yeni sesini kademeli olarak yayınladığını söylüyor. Alfa grubundaki kişiler, ChatGPT uygulamasında bir uyarı alacak ve ardından nasıl kullanılacağına dair talimatların yer aldığı bir e-posta alacak.

OpenAI’nin demosundan bu yana geçen aylarda şirket, GPT-4o’nun ses yeteneklerini 45 farklı dil konuşan 100’den fazla harici kırmızı ekip üyesiyle test ettiğini söylüyor. OpenAI, bu güvenlik çabalarıyla ilgili bir raporun Ağustos ayı başlarında yayınlanacağını söylüyor.

Şirket, Gelişmiş Ses Modunun ücretli seslendirme sanatçılarıyla iş birliği yaparak oluşturulan ChatGPT’nin dört ön ayarlı sesiyle (Juniper, Breeze, Cove ve Ember) sınırlı olacağını söylüyor. OpenAI’nin Mayıs demosunda gösterilen Sky sesi artık ChatGPT’de mevcut değil. OpenAI sözcüsü Lindsay McCallum, “ChatGPT, hem bireyler hem de kamu figürleri olmak üzere diğer kişilerin seslerini taklit edemez ve bu ön ayarlı seslerden birinden farklı olan çıktıları engelleyecektir.” diyor.

OpenAI, deepfake tartışmalarından kaçınmaya çalışıyor. Ocak ayında, AI girişimi ElevenLabs’ın ses klonlama teknolojisi Başkan Biden’ı taklit etmek için kullanıldıNew Hampshire’daki ilk seçmenleri aldatıyor.

OpenAI ayrıca müzik veya diğer telif hakkıyla korunan sesler üretmeye yönelik belirli istekleri engellemek için yeni filtreler getirdiğini söylüyor. Geçtiğimiz yıl, AI şirketleri telif hakkı ihlali nedeniyle yasal sorunlarla karşı karşıya kaldı ve GPT-4o gibi ses modelleri, şikayette bulunabilecek yepyeni bir şirket kategorisinin ortaya çıkmasına neden oldu. Özellikle dava açma geçmişi olan ve AI şarkı üreticileri Suno ve Udio’ya dava açmış olan plak şirketleri.



genel-24