OpenAI, yapay zeka teknolojisinin sınırlarını zorlamaya devam ediyor. İlk olarak, yalnızca bir açıklamayla dijital görüntüler oluşturabilen bir araç piyasaya sürdü. Ardından Hollywood kalitesinde hareketli videolar üreten bir teknoloji olan Sora’yı ortaya çıkardı. Ve şimdi ses rekreasyonu alanına adım atıyor.
OpenAI’nin en son özelliği, metni son derece insan benzeri bir sesle yüksek sesle okuyan bir özelliktir. Yapay zekadaki bu atılım ileriye doğru önemli bir sıçramaya işaret ediyor, ancak aynı zamanda derin sahte manipülasyon potansiyeline ilişkin endişeleri de artırıyor ( Bloomberg).
Şirket, dinleyebileceğiniz demolar sunan bu özelliğin test edilmesinin ilk sonuçlarını açıkladı. Burada. Voice Engine olarak adlandırılan bu metinden konuşmaya modeli şu anda yaklaşık 10 geliştiriciyle sınırlı bir deneme aşamasındadır. OpenAI, yaygın bir sürüm yerine temkinli bir yaklaşımı tercih etti.
Politika yapıcılar ve eğitimciler gibi paydaşlardan gelen geri bildirimleri takiben OpenAI, ilk dağıtımını küçültmeye karar verdi. Şirket, özellikle seçim yılı gibi hassas zamanlarda insan benzeri konuşmalar üretmenin ciddi risklerini kabul ediyor.
Şirket bir blog yazısında şunları yazdı:
İnsanların seslerine benzeyen konuşmalar üretmenin, özellikle seçim yılında akla ilk gelen ciddi riskler taşıdığının farkındayız. Oluştururken onların geri bildirimlerini dahil ettiğimizden emin olmak için hükümet, medya, eğlence, eğitim, sivil toplum ve diğer alanlardan ABD’li ve uluslararası ortaklarla iletişim halindeyiz.
Önceki ses projelerinden farklı olarak Voice Engine, bireysel sesleri dikkate değer bir doğrulukla taklit etme, ritim ve tonlamadaki nüansları yakalama becerisiyle öne çıkıyor. Ve bir kişinin sesini kopyalamak için ihtiyacı olan tek şey sadece 15 saniye.
OpenAI’nin ortakları arasında, teknolojinin hastalara ses rehabilitasyonunda yardımcı olmak için kullanıldığı Lifespan’daki Norman Prince Sinir Bilimleri Enstitüsü de bulunuyor. Örneğin beyin tümörü nedeniyle net konuşmakta zorluk çeken genç bir hastanın konuşmasını düzeltmek için kullanıldı. Yapay zeka, bir okul projesinin önceki kayıtlarından bilgi aldı.
Özel konuşma modeli, sağlık alanındaki uygulamalarının yanı sıra, podcast gibi ses içeriklerinin birden fazla dile çevrilmesinde potansiyel gören Spotify gibi şirketlerin de dikkatini çekti. Ancak OpenAI, orijinal konuşmacılardan izin alınması ve yapay zeka tarafından oluşturulan içeriğin dinleyicilere ifşa edilmesi de dahil olmak üzere, teknolojinin kullanımına ilişkin etik kuralları vurguluyor.
Ayrıca OpenAI, daha geniş bir sürümü düşünmeden önce geri bildirim istiyor ve gelişmiş yapay zeka teknolojisinin yarattığı zorluklar konusunda kamuoyunun bilinçlendirilmesini teşvik ediyor. Buna, bankacılık gibi hassas alanlarda sesli kimlik doğrulamanın aşamalı olarak kaldırılmasının savunulması da dahildir.
OpenAI blog yazısında şunları ekledi:
Biz onu geniş çapta kendimiz kullansak da kullanmasak da, dünya genelindeki insanların bu teknolojinin nereye doğru gittiğini anlaması önemlidir.
Ayrıca şirket, bu ön izlemenin yapay zekadaki ilerlemelerle ilişkili risklerin ele alınması ve toplumsal dayanıklılığın desteklenmesi konusunda bir tartışmaya yol açmasını umduğunu da ekliyor.