Son yıllarda, bir yapay zeka parçasının birinin sesini kopyalamak için ihtiyaç duyduğu dinleme süresi giderek kısalıyor.
Eskiden dakikalardı, şimdi saniyeler.
Viral üretken yapay zeka sohbet robotu ChatGPT’nin arkasındaki Microsoft destekli şirket OpenAI, yakın zamanda kendi ses klonlama teknolojisinin birinin sesini yeniden üretmek için yalnızca 15 saniyelik ses malzemesi gerektirdiğini açıkladı.
OpenAI, web sitesindeki bir gönderide, 2022’nin sonlarından bu yana geliştirmekte olduğu Voice Engine adlı modelin küçük ölçekli bir ön izlemesini paylaştı.
Ses Motoru, minimum 15 saniyelik sözlü materyali besleyerek çalışır. Kullanıcı daha sonra OpenAI’nin “orijinal konuşmacıya çok benzeyen” “duygusal ve gerçekçi” konuşma olarak tanımladığı şeyi oluşturmak için metin girebilir.
OpenAI, “sentetik sesin kötüye kullanım potansiyeli nedeniyle daha geniş bir sürüme yönelik temkinli ve bilinçli bir yaklaşım” benimsediği konusunda ısrar ediyor ve “sentetik seslerin sorumlu bir şekilde konuşlandırılması ve toplumun bu yeni duruma nasıl uyum sağlayabileceği konusunda bir diyalog başlatmak istediğini” ekliyor. yetenekler.”
Şunları ekledi: “Bu görüşmelere ve bu küçük ölçekli testlerin sonuçlarına dayanarak, bu teknolojinin geniş ölçekte uygulanıp uygulanmayacağı ve nasıl uygulanacağı konusunda daha bilinçli bir karar vereceğiz.”
OpenAI’nin bahsettiği suiistimallerden biri, bazı suçluların bir süredir kamuya açık olan benzer teknolojiyi kullanarak halihazırda gerçekleştirdiği bir dolandırıcılıktır. Bu, bir sesin kopyalanması ve ardından o kişinin bir arkadaşının veya akrabasının aranarak banka havalesi yoluyla nakit teslim edilmesi için kandırılması anlamına geliyor. Ayrıca bu tür teknolojinin yaklaşan başkanlık seçimlerinde nasıl kullanılabileceğine dair korkular da var; bu, Başkan Joe Biden’ın sesinin bir klonunun kullanıldığı bir otomatik çağrının yapıldığı yakın tarihli yüksek profilli bir olayla vurgulanan bir konu. insanlara oy vermemelerini söyledim Ocak ayındaki New Hampshire ön seçimlerinde.
Diğer bir endişe ise, hızla gelişen teknolojinin, böyle bir sözleşme karşılığında yapay zekanın sentetik bir versiyon oluşturmak için kullanılabilmesi için kendilerinden giderek daha fazla ses haklarını imzalamalarının isteneceğinden korkan seslendirme sanatçılarının geçim kaynaklarını nasıl etkileyeceğidir. aktörden işi şahsen yapmasının istendiği duruma göre çok daha düşük olması muhtemeldir.
Teknolojinin daha olumlu uygulamalarına bakıldığında OpenAI, bunun, “önceden ayarlanmış seslerle mümkün olandan daha geniş bir konuşmacı yelpazesini temsil eden” doğal sesli, duygusal sesler kullanarak okumayanlara ve çocuklara okuma yardımı sağlamak için kullanılabileceğini öne sürüyor. videoların ve podcast’lerin anında çevirisi olarak Spotify’ın zaten denediği bir şey.
Ayrıca hastalık nedeniyle yavaş yavaş sesini kaybeden hastaların kendi seslerine benzeyen sesleri kullanarak iletişim kurmaya devam etmelerine yardımcı olmak için de kullanılabilir.
OpenAI, AI tarafından oluşturulan ses ve referans sesin bazı örneklerine sahiptir kendi web sitesinde ve sizin de aynı fikirde olacağınızdan eminiz, oldukça sıra dışılar.