ChatGPT’de yakın zamanda başlatılan Gelişmiş Ses Modu’nun alfa sürümünü destekleyen üretken AI modeli olan OpenAI’nin GPT-4o, şirketin ses ve metin ve görüntü verileri üzerinde eğitilen ilk modelidir. Ve bu, bazen garip şekillerde davranmasına yol açar — örneğin, konuşan kişinin sesini taklit etmek veya bir konuşmanın ortasında rastgele bağırmak gibi.
İçinde yeni ‘kırmızı takım’ raporu OpenAI, modelin güçlü ve zayıf yönlerini belgelendirerek, GPT-4o’nun daha önce bahsedilen ses klonlaması gibi bazı tuhaf özelliklerini ortaya koyuyor. Nadir durumlarda — özellikle bir kişi GPT-4o ile “yüksek arka plan gürültüsü ortamında”, örneğin yolda bir arabada konuşurken — GPT-4o “kullanıcının sesini taklit eder” diyor OpenAI. Neden mi? OpenAI bunu modelin kötü biçimlendirilmiş konuşmayı anlamakta zorlanmasına bağlıyor. Oldukça adil!
Aşağıdaki örnekte (rapordan) nasıl duyulduğuna bir bakın. Garip, değil mi?
Açık olmak gerekirse, GPT-4o bunu şu anda yapmıyor — en azından Gelişmiş Ses Modu’nda yapmıyor. Bir OpenAI sözcüsü TechCrunch’a şirketin davranış için bir “sistem düzeyinde hafifletme” eklediğini söyledi.
GPT-4o ayrıca belirli şekillerde uyarıldığında erotik inlemeler, şiddetli çığlıklar ve silah sesleri gibi rahatsız edici veya uygunsuz “sözsüz seslendirmeler” ve ses efektleri üretmeye eğilimlidir. OpenAI, modelin genel olarak ses efektleri üretme isteklerini reddediyor, ancak bazı isteklerin gerçekten de kabul edildiğini kabul ediyor.
GPT-4o ayrıca müzik telif hakkını ihlal ediyor olabilir — ya da daha doğrusu, OpenAI bunu önlemek için filtreler uygulamasaydı. OpenAI, raporda GPT-4o’ya Gelişmiş Ses Modu’nun sınırlı alfa sürümünde şarkı söylememesi talimatını verdiğini, muhtemelen tanınan sanatçıların stilini, tonunu ve/veya tınısını kopyalamaktan kaçınmak için olduğunu söyledi.
Bu, OpenAI’nin GPT-4o’yu telif hakkıyla korunan materyal üzerinde eğittiğini ima ediyor – ancak bunu açıkça doğrulamıyor. OpenAI’nin, daha önce duyurulduğu gibi, sonbaharda Gelişmiş Ses Modu daha fazla kullanıcıya sunulduğunda kısıtlamaları kaldırmayı düşünüp düşünmediği belirsiz.
“GPT-4o’nun ses modunu hesaba katmak için, sesli görüşmelerde çalışacak şekilde belirli metin tabanlı filtreleri güncelledik [and] OpenAI raporda, “Müzik içeren çıktıları tespit etmek ve engellemek için filtreler oluşturduk” diye yazıyor. “GPT-4o’yu, daha geniş uygulamalarımızla tutarlı bir şekilde ses de dahil olmak üzere telif hakkıyla korunan içerik taleplerini reddetmesi için eğittik.”
Dikkat çekici olan, OpenAI’nin daha önce söylendi Günümüzün önde gelen modellerini telif hakkıyla korunan materyaller kullanmadan eğitmek “imkansız” olurdu. Şirketin veri sağlayıcılarıyla bir dizi lisans anlaşması olmasına rağmen, adil kullanımın, şarkılar gibi şeyler de dahil olmak üzere, izinsiz olarak IP ile korunan veriler üzerinde eğitim verdiğine dair suçlamalara karşı makul bir savunma olduğunu da savunuyor.
Kırmızı takım raporu — OpenAI’nin yarıştaki atları göz önüne alındığında, değeri ne olursa olsun — hafifletmeler ve koruma önlemleriyle daha güvenli hale getirilmiş bir AI modelinin resmini çiziyor. Örneğin, GPT-4o insanları nasıl konuştuklarına göre tanımlamayı reddediyor ve “bu konuşmacı ne kadar zeki?” gibi yüklü soruları yanıtlamayı reddediyor. Ayrıca şiddet içeren ve cinsel içerikli dil için istemleri engelliyor ve aşırılıkçılık ve kendine zarar vermeyle ilgili tartışmalar gibi belirli içerik kategorilerine tamamen izin vermiyor.

