Yapay zeka tarafından üretilen seslerin kalitesi son yıllarda hızla gelişti, ancak insan konuşmasının hala sentetik taklitten kaçan yönleri var. Elbette, AI oyuncuları sunumlar ve reklamlar için sorunsuz kurumsal seslendirmeler sunabilir, ancak daha karmaşık performanslar – ikna edici bir yorum. mezraörneğin – erişilemeyecek durumda kalın.

Bir AI ses başlangıcı olan Sonantic, sesli derin sahtekarlıkların geliştirilmesinde küçük bir atılım yaptığını ve alay ve flört gibi incelikleri ifade edebilen sentetik bir ses oluşturduğunu söylüyor. Şirket, ilerlemesinin anahtarının şirkete dahil edilmesi olduğunu söylüyor. olmayan-ses içine konuşma sesleri; AI modellerini, gerçek konuşmaya biyolojik özgünlüğünün damgasını veren o küçük nefes alımlarını (küçük alaylar ve yarı gizli kıkırdamalar) yeniden yaratmak için eğitiyor.

Sonantic’in kurucu ortağı ve CTO’su John Flynn, “Genel bir tema olarak aşkı seçtik” diyor. Sınır. “Ancak araştırma hedefimiz, ince duyguları modelleyip modelleyemeyeceğimizi görmekti. Daha büyük duyguları yakalamak biraz daha kolay.”

Aşağıdaki videoda, şirketin çapkın bir yapay zeka girişimini duyabilirsiniz – ancak bunun insan konuşmasının nüanslarını yakalayıp yakalamadığı öznel bir soru olsa da. İlk dinleyişte, sesin gerçek bir kişininkinden neredeyse ayırt edilemez olduğunu düşündüm, ancak şirketteki meslektaşlarım Sınır bazı kelimeler arasında kalan esrarengiz boşluklara ve telaffuzda hafif sentetik bir kırışıklığa işaret ederek, anında bir robot olarak saatlediklerini söylüyorlar.

Sonantic CEO’su Zeena Qureshi, şirketin yazılımını “Ses için Photoshop” olarak tanımlıyor. Arayüzü, kullanıcıların sentezlemek istedikleri konuşmayı yazmasına, teslimatın ruh halini belirlemesine ve ardından çoğu gerçek insan aktörlerden kopyalanan bir AI sesi kadrosundan seçim yapmasına olanak tanır. Bu kesinlikle benzersiz bir teklif değil (Descript gibi rakipler benzer paketler satıyor), ancak Sonantic, özelleştirme seviyesinin rakiplerininkinden daha derinlemesine olduğunu söylüyor.

Teslimat için duygusal seçenekler arasında öfke, korku, üzüntü, mutluluk ve neşe ve bu haftanın güncellemesi ile birlikte çapkın, çekingen, alay ve övünme sayılabilir. Bir “yönetmen modu” daha da fazla ince ayar yapılmasına izin verir: bir sesin perdesi ayarlanabilir, iletimin yoğunluğu yukarı veya aşağı çevrilebilir ve kahkahalar ve nefesler gibi konuşma dışı küçük seslendirmeler eklenebilir.

Sonantic’in yazılımı, AI tarafından oluşturulan konuşmanın dağıtımını ayarlamanıza olanak tanır.
Resim: Sonantik

Flynn, “Bence temel fark bu – bir performansı yönetme, kontrol etme, düzenleme ve şekillendirme yeteneğimiz” diyor. “Müşterilerimiz çoğunlukla üçlü A oyun stüdyoları, eğlence stüdyoları ve diğer sektörlere ayrılıyoruz. Yakın zamanda Mercedes ile bir ortaklık yaptık. [to customize its in-car digital assistant] bu senenin başlarında.”

Bununla birlikte, bu tür teknolojilerde sıklıkla olduğu gibi, Sonantic’in başarısının gerçek ölçütü, cilalı, PR’a hazır demolarda kullanılanlardan ziyade, makine öğrenimi modellerinden yeni çıkan sestir. Flynn, cilveli videosu için sentezlenen konuşmanın “çok az manuel ayarlama” gerektirdiğini, ancak şirketin en iyi çıktıyı bulmak için birkaç farklı görüntü oluşturma işlemi yaptığını söylüyor.

Sonantic teknolojisinin ham ve temsili bir örneğini denemek ve elde etmek için onlardan aynı satırı (size yönelik, canım sınır okuyucu) bir avuç farklı ruh hali kullanarak. Karşılaştırmak için onları kendiniz dinleyebilirsiniz.

İlk olarak, işte “flört”:

Sonra “alay”:

“Memnun”:

“Neşeli”:

Ve son olarak, “sıradan”:

En azından kulaklarıma göre bu klipler çok güzelsin demodan daha kaba. Bu birkaç şey önerir. İlk olarak, yapay zeka seslerinden en iyi şekilde yararlanmak için bu manuel parlatma gereklidir. Bu, çok temel sürüşü başarılı bir şekilde otomatikleştiren, ancak yine de insan yetkinliğini tanımlayan son ve çok önemli yüzde 5 ile mücadele eden kendi kendine giden arabalar gibi birçok AI girişimi için geçerlidir. Bu, tam otomatik, tamamen ikna edici AI ses sentezinin hala bir yol olduğu anlamına gelir.

İkincisi, bence bu, psikolojik hazırlama kavramının duyularınızı kandırmak için çok şey yapabileceğini gösteriyor. Video demosu – gerçek bir insan aktörün kameraya karşı rahatsız edici bir şekilde samimi olduğu görüntüleri ile – beyninize eşlik eden sesi gerçek gibi duyması için ipucu verebilir. O halde en iyi sentetik medya, gerçek ve sahte çıktıları birleştiren medya olabilir.

Sonantic’in demosu, teknolojinin ne kadar inandırıcı olduğu sorusunun yanı sıra başka sorunları da gündeme getiriyor – örneğin, çapkın bir yapay zekayı kullanmanın etiği nedir? Dinleyicileri bu şekilde manipüle etmek adil mi? Ve Sonantic neden flört eden figürünü kadın yapmayı seçti? (Şirketlerin kod yazma eğiliminde olduğu erkek egemen teknoloji endüstrisinde muhtemelen ince bir cinsiyetçilik biçimini sürdüren bir seçimdir. Esnek – hatta flörtöz – sekreterler olarak yapay zeka asistanları.)

İlk soruda şirket, kadın sesi seçimlerinin sadece Spike Jonze’nin sesinden ilham aldığını söyledi. 2013 filmi Onakahramanın Samantha adında bir kadın AI asistanına aşık olduğu yer. İkincisi, Sonantic, yeni teknolojinin geliştirilmesine eşlik eden etik ikilemleri tanıdığını ve AI seslerini nasıl ve nerede kullandığı konusunda dikkatli olduğunu söyledi.

CEO Qureshi, “Eğlenceye bağlı kalmamızın en büyük nedenlerinden biri bu” diyor. “CGI herhangi bir şey için kullanılmıyor – en iyi eğlence ürünleri ve simülasyonlar için kullanılıyor. bunu görüyoruz [technology] aynı yol.” Şirketin tüm demolarının sesin gerçekten de sentetik olduğuna dair bir açıklama içerdiğini ekliyor (ancak bu, müşteriler şirketin yazılımını daha aldatıcı amaçlarla sesler üretmek için kullanmak istiyorsa bu pek bir şey ifade etmiyor).

AI ses sentezini diğer eğlence ürünleriyle karşılaştırmak mantıklı. Ne de olsa, film ve TV tarafından manipüle edilmek, tartışmasız bu şeyleri ilk etapta yapmamızın nedenidir. Ancak yapay zekanın, bireysel durumlarda etkisine daha az dikkat ederek, bu tür manipülasyonların geniş ölçekte uygulanmasına izin vereceği gerçeği hakkında da söylenecek bir şey var. Örneğin, dünyanın her yerinde insanlar zaten ilişkiler kuruyorlar — aşık olmak bile — AI sohbet robotlarıyla. Bu botlara yapay zeka tarafından üretilen sesler eklemek, onları kesinlikle daha güçlü hale getirecek ve bu ve diğer sistemlerin nasıl tasarlanması gerektiği hakkında soruları gündeme getirecektir. AI sesleri ikna edici bir şekilde flört edebiliyorsa, sizi ne yapmaya ikna edebilirler?



genel-2

Bir yanıt yazın