VALL-E adlı özellikle etkili bir ses sentezi makine öğrenimi modelinin geçtiğimiz hafta ortaya çıkması, derin sahte seslerin hızlı ve kolay hale getirilme olasılığı konusunda yeni bir endişe dalgasına yol açtı – hızlı sahteler, isterseniz hızlı sahteler. Ancak VALL-E, çığır açmaktan çok yinelemelidir ve yetenekler sandığınız kadar yeni değildir. Bunun az ya da çok endişelenmeniz gerektiği anlamına gelip gelmediği size kalmış.
Ses çoğaltma, yıllardır yoğun bir araştırma konusu olmuştur ve sonuçlar, WellSaid, Papercup ve Respeecher gibi pek çok yeni girişime güç verecek kadar iyi olmuştur. İkincisi, James Earl Jones gibi aktörlerin yetkili ses reprodüksiyonlarını oluşturmak için bile kullanılıyor. Evet: bundan sonra Darth Vader yapay zeka tarafından üretilecek.
VAL-E, GitHub’da yayınlandı Geçen hafta Microsoft’taki yaratıcıları tarafından geliştirilen, sesleri işlemek için kendisinden önceki birçok yaklaşımdan farklı bir yaklaşım kullanan bir “nöral codec dili modeli”. Daha geniş eğitim gövdesi ve bazı yeni yöntemleri, hedef konuşmacıdan yalnızca üç saniyelik ses kullanarak “yüksek kaliteli kişiselleştirilmiş konuşma” oluşturmasına olanak tanır.
Yani, tek ihtiyacınız olan aşağıdaki gibi son derece kısa bir klip (tüm klipler Microsoft’un makalesinden):
Oldukça benzer görünen sentetik bir ses üretmek için:
Duyabileceğiniz gibi, tonu, tınıyı, aksan görüntüsünü ve hatta “akustik ortamı” (örneğin, bir cep telefonu görüşmesine sıkıştırılmış bir ses) korur. Onları etiketleme zahmetine girmedim çünkü yukarıdakilerden hangisinin hangisi olduğunu kolayca anlayabilirsiniz. Oldukça etkileyici!
Aslında o kadar etkileyici ki, bu özel model, araştırma topluluğunun gizlenmesini delmiş ve “ana akım haline gelmiş” görünüyor. Dün gece yerelimde bir içki içerken barmen, ses sentezinin yeni yapay zeka tehdidini kesin bir dille anlattı. Zamanın ruhunu yanlış değerlendirdiğimi böyle biliyorum.
Ancak biraz geriye bakarsanız, 2017 gibi erken bir tarihte, gündelik kullanımda geçeceğine yeterince inandırıcı sahte bir sürüm oluşturmak için ihtiyacınız olan tek şey bir dakikalık seslendirmeydi. Ve bu tek proje olmaktan çok uzaktı.
DALL-E 2 ve Stable Diffusion gibi görüntü oluşturma modellerinde veya ChatGPT gibi dil modellerinde gördüğümüz gelişme, dönüştürücü, niteliksel bir gelişme oldu: Bir veya iki yıl önce bu düzeyde ayrıntılı, inandırıcı yapay zeka tarafından oluşturulmuş içerik imkansızdı Bu modeller etrafındaki endişe (ve panik) anlaşılabilir ve haklı.
Aksine, VALL-E’nin sunduğu iyileştirme, nicel niteliksel değil. Sahte ses içeriğini çoğaltmakla ilgilenen kötü aktörler bunu çok uzun zaman önce yapabilirdi, sadece daha yüksek hesaplama maliyetiyle, bu bugünlerde bulunması özellikle zor bir şey değil. Özellikle devlet destekli aktörler, örneğin sıcak bir mikrofonda zarar verici bir şey söyleyen Başkan’ın sahte bir ses klibi oluşturmak için gerekli olan türden hesaplama işlerini yapmak için ellerinde bol miktarda kaynağa sahip olacaktır.
Bir süre başka bir metinden konuşmaya sisteminde çalışan bir mühendis olan James Betker ile sohbet ettim. Kaplumbağa-TTS olarak adlandırılan.
Betker, VALL-E’nin gerçekten yinelemeli olduğunu ve günümüzde diğer popüler modeller gibi gücünü boyutundan aldığını söyledi.
“ChatGPT veya Stable Diffusion gibi büyük bir model; konuşmanın insanlar tarafından nasıl oluşturulduğuna dair içsel bir anlayışa sahiptir. Daha sonra belirli hoparlörlerde Tortoise ve diğer modellerde ince ayar yapabilirsiniz ve bu onları gerçekten çok iyi yapar. ‘Kulağa benziyor’ değil; iyi,” açıkladı.
Stable Diffusion’da belirli bir sanatçının çalışmasında “ince ayar” yaptığınızda, tüm devasa modeli yeniden eğitmiyorsunuz (bu çok daha fazla güç gerektirir), ancak yine de bu içeriği kopyalama yeteneğini büyük ölçüde artırabilirsiniz.
Ancak tanıdık olması, göz ardı edilmesi gerektiği anlamına gelmez, diye açıkladı Betker.
“Biraz ilgi gördüğü için memnunum çünkü gerçekten insanların bunun hakkında konuşmasını istiyorum. Aslında konuşmanın, kültürümüzün bu konuda düşündüğü şekilde bir şekilde kutsal olduğunu hissediyorum” ve aslında bu endişelerin bir sonucu olarak kendi modeli üzerinde çalışmayı bıraktı. DALL-E 2 tarafından yaratılan sahte bir Dali, insanlar üzerinde kendi sesinden, sevilen birinin veya hayran olunan birinin sesini duymakla aynı içgüdüsel etkiye sahip değildir.
Betker, VALL-E’nin bizi her yerde bulunmaya bir adım daha yaklaştırdığını ve telefonunuzda veya ev bilgisayarınızda çalıştırdığınız model türü olmasa da, bunun çok da uzak olmadığını tahmin etti. Belki birkaç yıl, kendin de buna benzer bir şey yapmak için; örnek olarak, kendi bilgisayarında oluşturduğu bu klibi, sesli kitap okumalarına dayanarak Samuel L. Jackson’ın Tortoise-TTS’sini kullanarak gönderdi:
İyi, değil mi? Ve birkaç yıl önce, daha büyük bir çabayla da olsa benzer bir şeyi başarabilirdiniz.
Bunların hepsi, VALL-E ve üç saniyelik hızlı sahte kesinlikle dikkate değer olsa da, araştırmacıların on yılı aşkın süredir yürüdüğü uzun bir yolda tek bir adım olduklarını söylemek içindir.
Tehdit yıllardır var ve eğer biri sesinizi kopyalamak isteseydi, bunu çok uzun zaman önce kolayca yapabilirdi. Bu, onu düşünmeyi daha az rahatsız edici yapmaz ve bundan korkmakta yanlış bir şey yoktur. Ben de!
Ancak kötü niyetli aktörler için faydaları şüphelidir. Örneğin, yanlış bir numara çağrısına dayalı fena bir sahtekarlık kullanan küçük dolandırıcılıklar, birçok şirketteki güvenlik uygulamaları zaten gevşek olduğu için zaten çok kolay. Kimlik hırsızlığı ihtiyaç paraya ve erişime giden pek çok kolay yol olduğu için ses kopyalamaya güvenmek.
Bu arada faydalar potansiyel olarak çok büyük – bir hastalık veya kaza nedeniyle konuşma yeteneğini kaybeden insanları düşünün. Bu şeyler, bir modeli eğitmek için bir saatlik konuşmayı kaydetmeye zamanları olmayacak kadar hızlı gerçekleşir (bu yetenek yaygın olarak mevcut değildir, ancak yıllar önce olabilirdi). Ancak VALL-E gibi bir şeyle, tek ihtiyacınız olan, birinin telefonunda akşam yemeğinde kadeh kaldırırken veya bir arkadaşınızla konuşurken çekilmiş birkaç klip.
Her zaman dolandırıcılık ve kimliğe bürünme ve diğer şeyler için fırsat vardır – ancak daha fazla insan basit bir telefon veya kimlik avı dolandırıcılığı gibi çok daha basit yollarla paralarından ve kimliklerinden ayrılır. Bu teknolojinin potansiyeli çok büyük ama burada tehlikeli bir şeyler olduğunu söyleyen kolektif içgüdülerimizi de dinlemeliyiz. Panik yapmayın – henüz.