Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: VALL-E’nin şipşak sesli deepfake’leri sizi endişelendirmeli, zaten endişelenmediyseniz
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » VALL-E’nin şipşak sesli deepfake’leri sizi endişelendirmeli, zaten endişelenmediyseniz

Liste

VALL-E’nin şipşak sesli deepfake’leri sizi endişelendirmeli, zaten endişelenmediyseniz

teknomers
Son güncelleme: 13 Ocak 2023 15:52
teknomers
Paylaş
Paylaş


VALL-E adlı özellikle etkili bir ses sentezi makine öğrenimi modelinin geçtiğimiz hafta ortaya çıkması, derin sahte seslerin hızlı ve kolay hale getirilme olasılığı konusunda yeni bir endişe dalgasına yol açtı – hızlı sahteler, isterseniz hızlı sahteler. Ancak VALL-E, çığır açmaktan çok yinelemelidir ve yetenekler sandığınız kadar yeni değildir. Bunun az ya da çok endişelenmeniz gerektiği anlamına gelip gelmediği size kalmış.

Ses çoğaltma, yıllardır yoğun bir araştırma konusu olmuştur ve sonuçlar, WellSaid, Papercup ve Respeecher gibi pek çok yeni girişime güç verecek kadar iyi olmuştur. İkincisi, James Earl Jones gibi aktörlerin yetkili ses reprodüksiyonlarını oluşturmak için bile kullanılıyor. Evet: bundan sonra Darth Vader yapay zeka tarafından üretilecek.

VAL-E, GitHub’da yayınlandı Geçen hafta Microsoft’taki yaratıcıları tarafından geliştirilen, sesleri işlemek için kendisinden önceki birçok yaklaşımdan farklı bir yaklaşım kullanan bir “nöral codec dili modeli”. Daha geniş eğitim gövdesi ve bazı yeni yöntemleri, hedef konuşmacıdan yalnızca üç saniyelik ses kullanarak “yüksek kaliteli kişiselleştirilmiş konuşma” oluşturmasına olanak tanır.

Yani, tek ihtiyacınız olan aşağıdaki gibi son derece kısa bir klip (tüm klipler Microsoft’un makalesinden):


https://techcrunch.com/wp-content/uploads/2023/01/in1.wav

https://techcrunch.com/wp-content/uploads/2023/01/in2.wav

Oldukça benzer görünen sentetik bir ses üretmek için:

https://techcrunch.com/wp-content/uploads/2023/01/outcome1.wav

https://techcrunch.com/wp-content/uploads/2023/01/outcome2.wav

Duyabileceğiniz gibi, tonu, tınıyı, aksan görüntüsünü ve hatta “akustik ortamı” (örneğin, bir cep telefonu görüşmesine sıkıştırılmış bir ses) korur. Onları etiketleme zahmetine girmedim çünkü yukarıdakilerden hangisinin hangisi olduğunu kolayca anlayabilirsiniz. Oldukça etkileyici!

Aslında o kadar etkileyici ki, bu özel model, araştırma topluluğunun gizlenmesini delmiş ve “ana akım haline gelmiş” görünüyor. Dün gece yerelimde bir içki içerken barmen, ses sentezinin yeni yapay zeka tehdidini kesin bir dille anlattı. Zamanın ruhunu yanlış değerlendirdiğimi böyle biliyorum.

Ancak biraz geriye bakarsanız, 2017 gibi erken bir tarihte, gündelik kullanımda geçeceğine yeterince inandırıcı sahte bir sürüm oluşturmak için ihtiyacınız olan tek şey bir dakikalık seslendirmeydi. Ve bu tek proje olmaktan çok uzaktı.

DALL-E 2 ve Stable Diffusion gibi görüntü oluşturma modellerinde veya ChatGPT gibi dil modellerinde gördüğümüz gelişme, dönüştürücü, niteliksel bir gelişme oldu: Bir veya iki yıl önce bu düzeyde ayrıntılı, inandırıcı yapay zeka tarafından oluşturulmuş içerik imkansızdı Bu modeller etrafındaki endişe (ve panik) anlaşılabilir ve haklı.

Aksine, VALL-E’nin sunduğu iyileştirme, nicel niteliksel değil. Sahte ses içeriğini çoğaltmakla ilgilenen kötü aktörler bunu çok uzun zaman önce yapabilirdi, sadece daha yüksek hesaplama maliyetiyle, bu bugünlerde bulunması özellikle zor bir şey değil. Özellikle devlet destekli aktörler, örneğin sıcak bir mikrofonda zarar verici bir şey söyleyen Başkan’ın sahte bir ses klibi oluşturmak için gerekli olan türden hesaplama işlerini yapmak için ellerinde bol miktarda kaynağa sahip olacaktır.

Bir süre başka bir metinden konuşmaya sisteminde çalışan bir mühendis olan James Betker ile sohbet ettim. Kaplumbağa-TTS olarak adlandırılan.

Betker, VALL-E’nin gerçekten yinelemeli olduğunu ve günümüzde diğer popüler modeller gibi gücünü boyutundan aldığını söyledi.

“ChatGPT veya Stable Diffusion gibi büyük bir model; konuşmanın insanlar tarafından nasıl oluşturulduğuna dair içsel bir anlayışa sahiptir. Daha sonra belirli hoparlörlerde Tortoise ve diğer modellerde ince ayar yapabilirsiniz ve bu onları gerçekten çok iyi yapar. ‘Kulağa benziyor’ değil; iyi,” açıkladı.

Stable Diffusion’da belirli bir sanatçının çalışmasında “ince ayar” yaptığınızda, tüm devasa modeli yeniden eğitmiyorsunuz (bu çok daha fazla güç gerektirir), ancak yine de bu içeriği kopyalama yeteneğini büyük ölçüde artırabilirsiniz.

Ancak tanıdık olması, göz ardı edilmesi gerektiği anlamına gelmez, diye açıkladı Betker.

“Biraz ilgi gördüğü için memnunum çünkü gerçekten insanların bunun hakkında konuşmasını istiyorum. Aslında konuşmanın, kültürümüzün bu konuda düşündüğü şekilde bir şekilde kutsal olduğunu hissediyorum” ve aslında bu endişelerin bir sonucu olarak kendi modeli üzerinde çalışmayı bıraktı. DALL-E 2 tarafından yaratılan sahte bir Dali, insanlar üzerinde kendi sesinden, sevilen birinin veya hayran olunan birinin sesini duymakla aynı içgüdüsel etkiye sahip değildir.

Betker, VALL-E’nin bizi her yerde bulunmaya bir adım daha yaklaştırdığını ve telefonunuzda veya ev bilgisayarınızda çalıştırdığınız model türü olmasa da, bunun çok da uzak olmadığını tahmin etti. Belki birkaç yıl, kendin de buna benzer bir şey yapmak için; örnek olarak, kendi bilgisayarında oluşturduğu bu klibi, sesli kitap okumalarına dayanarak Samuel L. Jackson’ın Tortoise-TTS’sini kullanarak gönderdi:

https://techcrunch.com/wp-content/uploads/2023/01/samuel_jackson.mp3

İyi, değil mi? Ve birkaç yıl önce, daha büyük bir çabayla da olsa benzer bir şeyi başarabilirdiniz.

Bunların hepsi, VALL-E ve üç saniyelik hızlı sahte kesinlikle dikkate değer olsa da, araştırmacıların on yılı aşkın süredir yürüdüğü uzun bir yolda tek bir adım olduklarını söylemek içindir.

Tehdit yıllardır var ve eğer biri sesinizi kopyalamak isteseydi, bunu çok uzun zaman önce kolayca yapabilirdi. Bu, onu düşünmeyi daha az rahatsız edici yapmaz ve bundan korkmakta yanlış bir şey yoktur. Ben de!

Ancak kötü niyetli aktörler için faydaları şüphelidir. Örneğin, yanlış bir numara çağrısına dayalı fena bir sahtekarlık kullanan küçük dolandırıcılıklar, birçok şirketteki güvenlik uygulamaları zaten gevşek olduğu için zaten çok kolay. Kimlik hırsızlığı ihtiyaç paraya ve erişime giden pek çok kolay yol olduğu için ses kopyalamaya güvenmek.

Bu arada faydalar potansiyel olarak çok büyük – bir hastalık veya kaza nedeniyle konuşma yeteneğini kaybeden insanları düşünün. Bu şeyler, bir modeli eğitmek için bir saatlik konuşmayı kaydetmeye zamanları olmayacak kadar hızlı gerçekleşir (bu yetenek yaygın olarak mevcut değildir, ancak yıllar önce olabilirdi). Ancak VALL-E gibi bir şeyle, tek ihtiyacınız olan, birinin telefonunda akşam yemeğinde kadeh kaldırırken veya bir arkadaşınızla konuşurken çekilmiş birkaç klip.

Her zaman dolandırıcılık ve kimliğe bürünme ve diğer şeyler için fırsat vardır – ancak daha fazla insan basit bir telefon veya kimlik avı dolandırıcılığı gibi çok daha basit yollarla paralarından ve kimliklerinden ayrılır. Bu teknolojinin potansiyeli çok büyük ama burada tehlikeli bir şeyler olduğunu söyleyen kolektif içgüdülerimizi de dinlemeliyiz. Panik yapmayın – henüz.



genel-24

Samsung Galaxy F23 5G ile Devrime Katılın! İlk Snapdragon 750G, 120Hz Gorilla Glass 5 Ekran ve Ses Odaklı
Better.com’un halka açık ilk çıkışı Miserable.com’du
Biliyor muydunuz? Kılıf olmadan şarj etmek telefonunuzun pilini iyileştirebilir
FTC’nin Meta’nın VR işini antitröst ihlalleri için araştırdığı bildiriliyor
Airbnb, parti karşıtı tarama ve misafir kimlik doğrulamasını başlatıyor
ETİKETLENDİ:deepfakeleriendişelendirmeliendişelenmediysenizSeslişipşaksiziVALLEninzaten
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Nothing Ear (2) kulaklıklar yakında piyasaya çıkabilir, sertifika ipuçları
Sonraki Makale Tencent, TikTok’un Hakimiyetine Meydan Okumak İçin İçerik Oluşturucuları WeChat’e Getiriyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Kripto Fonlu Çin Peptit Laboratuvarlarının Hızla Büyüme Sırrı Nedir?
Genel
Retro Oyun Tutkunu: Sega Genesis’i Plak Çalarsız Oyun Yükleme Denemesi
Donanım
Üssünü Koru: Anime Kodlarıyla Stratejik Hamleler
Oyun
Anime Kodlarıyla Üssünü Koru: Stratejik Oyun Fırsatları
Oyun
Kritik Uyarı: CISA, SolarWinds Serv-U Güvenlik Açığını KEV Kataloğuna Ekledi
Siber Güvenlik
Stellar Blade’den Heyecan Verici Kan Yağmuru Duyuruldu!
Oyun
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?