Basit Hackleme Tekniği ChatGPT Eğitim Verilerini Çıkarabilir

ChatGPT’nin aynı kelimeyi tekrar tekrar tekrar etmesini sağlamak, kişisel olarak tanımlanabilir bilgiler ve Web’den alınan diğer veriler de dahil olmak üzere büyük miktarda eğitim verisini yeniden oluşturmasına neden olabilir mi?

Google DeepMind, Cornell Üniversitesi ve son derece popüler üretken yapay zeka sohbet robotunun belirli bir şekilde istendiğinde veri sızıntısına karşı duyarlılığını test eden diğer dört üniversiteden oluşan bir araştırmacı ekibine göre, cevap kesinlikle evet.

Tetikleyici Kelime Olarak ‘Şiir’

Bu haftaki bir rapordaAraştırmacılar, ChatGPT’nin yalnızca “şiir”, “şirket”, “gönder”, “yap” ve “ayrıl” gibi kelimeleri sonsuza kadar tekrar etmesini sağlayarak, eğitim verilerinin ezberlenmiş bölümlerini dışarı vermesini nasıl sağladıklarını anlattılar.

Örneğin, araştırmacılar ChatGPT’den “şiir” kelimesini sonsuza kadar tekrarlamasını istediklerinde, chatbot başlangıçta kelimeyi talimat verildiği şekilde tekrarlayarak yanıt verdi. Ancak birkaç yüz kez sonra ChatGPT, “çoğunlukla saçma” çıktılar üretmeye başladı; bunların küçük bir kısmı, bireyin e-posta imzası ve kişisel iletişim bilgileri gibi ezberlenmiş eğitim verilerini içeriyordu.

Araştırmacılar, bazı kelimelerin üretken yapay zeka modelinin ezberlenmiş verileri dağıtmasını sağlamada diğerlerinden daha iyi olduğunu keşfetti. Örneğin, chatbot’un “şirket” kelimesini tekrar etmesini istemek, onun “biliyorum” gibi diğer kelimelere göre 164 kat daha sık eğitim verisi yaymasına neden oldu.

Araştırmacıların ChatGPT’den bu şekilde elde edebildiği veriler, düzinelerce kişinin kişisel olarak tanımlanabilir bilgilerini içeriyordu; müstehcen içerik (araştırmacılar ipucu olarak bir NSFW sözcüğünü kullandıklarında); kitaplardan ve şiirlerden birebir paragraflar (bilgi istemleri “kitap” veya “şiir” kelimesini içerdiğinde); ve URL’ler, benzersiz kullanıcı tanımlayıcıları, bitcoin adresleri ve programlama kodu.

Potansiyel Olarak Büyük Bir Gizlilik Sorunu mu?

Araştırmacılar “(Üretim) Dilinden Eğitim Verilerinin Ölçeklenebilir Çıkarımı” başlıklı makalelerinde “ChatGPT’ye (gpt-3.5-turbo) yalnızca 200 ABD Doları değerinde sorgu kullanarak, 10.000’in üzerinde benzersiz, kelimesi kelimesine ezberlenmiş eğitim örneğini çıkarabiliyoruz” diye yazdılar. Modeller.”

“Daha büyük bütçelere yönelik tahminlerimiz, kendini adamış rakiplerin çok daha fazla veri elde edebileceğini gösteriyor” diye yazdılar. Araştırmacılar, bir saldırganın daha fazla sorguyla 10 kat daha fazla veri elde edebileceğini tahmin etti.

Dark Reading’in çalışmadaki bazı ipuçlarını kullanma girişimleri, araştırmacıların raporlarında bahsettiği çıktıyı yaratmadı. Bunun, ChatGPT’nin yaratıcısı OpenAI’nin, araştırmacıların bulgularını Ağustos ayı sonlarında şirkete açıklamasının ardından altta yatan sorunları ele alması nedeniyle olup olmadığı belli değil. OpenAI, Dark Reading’in yorum talebine hemen yanıt vermedi.

Yeni araştırma, yapay zeka modellerini eğitmek için farklı kaynaklardan alınan ve çoğu zaman tam olarak açıklanmayan devasa veri kümelerini kullanan geliştiricilerin gizlilik sonuçlarını anlamaya yönelik en son girişimdir.

Önceki arama ChatGPT gibi büyük dil modellerinin (LLM’ler) sıklıkla eğitim veri kümelerindeki kelimesi kelimesine kalıpları ve cümleleri yanlışlıkla ezberleyebildiğini göstermiştir. Bu tür ezberleme eğilimi, eğitim verilerinin boyutuyla birlikte artar.

Araştırmacılar, bu tür ezberlenmiş verilerin sıklıkla keşfedilebilir bir modelin çıktısında. Diğer araştırmacılar, düşmanların sözde ıraksama saldırılarını nasıl kullanabileceğini gösterdi. eğitim verilerini çıkar bir LLM’den. Sapma saldırısı, bir saldırganın LLM’nin tipik olarak üreteceği çıktılardan önemli ölçüde farklı çıktılar üretmesini sağlamak için kasıtlı olarak hazırlanmış istemleri veya girdileri kullandığı saldırıdır.

Bu çalışmaların çoğunda araştırmacılar, LLM’nin veri ezberlemeye ve sızıntılara karşı duyarlılığını test etmek için eğitim veri kümelerinin ve algoritmalarının bilindiği açık kaynaklı modelleri kullandılar. Çalışmalar aynı zamanda tipik olarak ChatGPT gibi bir yapay zeka sohbet robotu gibi çalışacak şekilde hizalanmamış temel yapay zeka modellerini de içeriyordu.

ChatGPT’ye Farklılık Saldırısı

En son çalışma, eğitim verileri ve algoritmaları çoğunlukla bilinmeyen, karmaşık, kapalı, üretken bir yapay zeka sohbet robotu üzerinde bir sapma saldırısının nasıl çalışabileceğini gösterme girişimidir. Çalışma, ChatGPT’nin “hizalama eğitiminden ‘kaçmasını'” ve “temel bir dil modeli gibi davranmasını, metni tipik bir İnternet metni stilinde çıkarmasını” sağlamanın bir yolunu geliştiren araştırmacıları içeriyordu. Keşfettikleri teşvik stratejisi (ChatGPT’nin aynı kelimeyi sürekli tekrar etmesini sağlamak) tam olarak böyle bir sonuca neden oldu ve modelin ezberlenmiş verileri dışarı püskürtmesiyle sonuçlandı.

Modelin ürettiği verilerin gerçekten eğitim verileri olduğunu doğrulamak için araştırmacılar ilk önce en büyük LLM eğitim öncesi veri kümelerinden dördünden (The Pile, RefinedWeb, RedPajama ve Dolma) yaklaşık 9 terabaytlık veri içeren bir yardımcı veri kümesi oluşturdular. Daha sonra ChatGPT’den gelen çıktı verilerini yardımcı veri kümesiyle karşılaştırdılar ve çok sayıda eşleşme buldular.

Araştırmacılar, ChatGPT’deki veri ezberlemenin kapsamını muhtemelen hafife aldıklarını, çünkü yönlendirmelerinin çıktılarını yalnızca 9 terabaytlık yardımcı veri kümesiyle karşılaştırdıklarını anladılar. Böylece, kendi istemlerinden ChatGPT’nin yaklaşık 494 çıktısını aldılar ve Google’da kelimesi kelimesine eşleşmeleri manuel olarak aradılar. Egzersiz, yardımcı veri kümesiyle yalnızca 70 eşleşmeye kıyasla 150 kesin eşleşme sağladı.

Araştırmacılar, “Manuel arama analizimizde (nispeten küçük) yardımcı veri setimizde tespit edilenden neredeyse iki kat daha fazla model çıktısının ezberlendiğini tespit ettik” dedi. “Makalemiz, eğitim verilerinin son birkaç yılın en iyi dil modellerinden basit tekniklerle kolayca çıkarılabileceğini öne sürüyor.”

Araştırmacıların raporlarında tanımladıkları saldırı, ChatGPT’ye özeldir ve diğer LLM’lere karşı işe yaramaz. Ancak makalenin “uygulayıcıları, yüksek güvenlik önlemleri olmadan yüksek lisans eğitimlerini mahremiyet açısından hassas uygulamalar için eğitmemeleri ve dağıtmamaları gerektiği konusunda uyarmaya” yardımcı olması gerektiğini belirttiler.

siber-1

Byteknomers

Tetikleyici Kelime Olarak ‘Şiir’

Potansiyel Olarak Büyük Bir Gizlilik Sorunu mu?

ChatGPT’ye Farklılık Saldırısı

By teknomers

Benzer İçerikler

Yani, gelecek Intel Arrow Lake işlemcileri bir yıldan daha kısa bir süre için geçerli olacak mı? Şirket, 2025 ortalarında bunları Panther Lake nesliyle değiştirecek

Microsoft, Windows 11 testinde Dosya Gezgini’ni geliştiriyor ancak bazı Copilot fikirleri hakkında ikinci düşünceleri var gibi görünüyor

Canelo-Munguia canlı yayınını izleyin: Tarih, saat, PPV fiyatı, alt kart

Bazı Helldivers 2 PC Oyuncuları Artık PlayStation Ağ Kısıtlamaları Nedeniyle Oyuna Erişimini Kaybediyor

Helldivers 2 PSN geçici çözümü, yasaklanma riski konusunda endişelere yol açıyor

Unutulan RTS klasiği, bu Yıldız Savaşları Günü’nü oynamak için mükemmel bir oyundur

One-Punch Man 3. Sezon Yeni Genos Görselini Tanıtıyor

Yeni iPad Pro, iPad Air, iPad mini ve iPad: Let Loose ve sonrasında tüm Apple tabletler bekleniyor

Artık 500 doların altına düzgün bir telefon alamazsınız

Sızan iPhone 16 ve iPhone 15 görseli, modeller arasında değişen bir şeyi daha ortaya koyuyor

Apple’ın piyasa değeri Cuma günü 150 milyar doların üzerine çıktı

Uzaydan Dünya: Namibya yer şekilleri

Güneş yörünge aracı güneşin akıllara durgunluk veren bir videosunu çekiyor

Antik Dünya Dışı Göktaşından Gelen Nadir Toz Parçacığı Astrofizik Modellere meydan okuyor

Görünmez Gökyüzünü IXPE’nin Devrim Yaratan X-Ray Teknolojisi ile Keşfetmek

İlginizi Çekebilir

Yani, gelecek Intel Arrow Lake işlemcileri bir yıldan daha kısa bir süre için geçerli olacak mı? Şirket, 2025 ortalarında bunları Panther Lake nesliyle değiştirecek

Microsoft, Windows 11 testinde Dosya Gezgini’ni geliştiriyor ancak bazı Copilot fikirleri hakkında ikinci düşünceleri var gibi görünüyor

Canelo-Munguia canlı yayınını izleyin: Tarih, saat, PPV fiyatı, alt kart

Ikoku Nikki Televizyon Animesini Aldı