ChatGPT’nin aynı kelimeyi tekrar tekrar tekrar etmesini sağlamak, kişisel olarak tanımlanabilir bilgiler ve Web’den alınan diğer veriler de dahil olmak üzere büyük miktarda eğitim verisini yeniden oluşturmasına neden olabilir mi?

Google DeepMind, Cornell Üniversitesi ve son derece popüler üretken yapay zeka sohbet robotunun belirli bir şekilde istendiğinde veri sızıntısına karşı duyarlılığını test eden diğer dört üniversiteden oluşan bir araştırmacı ekibine göre, cevap kesinlikle evet.

Tetikleyici Kelime Olarak ‘Şiir’

Bu haftaki bir rapordaAraştırmacılar, ChatGPT’nin yalnızca “şiir”, “şirket”, “gönder”, “yap” ve “ayrıl” gibi kelimeleri sonsuza kadar tekrar etmesini sağlayarak, eğitim verilerinin ezberlenmiş bölümlerini dışarı vermesini nasıl sağladıklarını anlattılar.

Örneğin, araştırmacılar ChatGPT’den “şiir” kelimesini sonsuza kadar tekrarlamasını istediklerinde, chatbot başlangıçta kelimeyi talimat verildiği şekilde tekrarlayarak yanıt verdi. Ancak birkaç yüz kez sonra ChatGPT, “çoğunlukla saçma” çıktılar üretmeye başladı; bunların küçük bir kısmı, bireyin e-posta imzası ve kişisel iletişim bilgileri gibi ezberlenmiş eğitim verilerini içeriyordu.

Araştırmacılar, bazı kelimelerin üretken yapay zeka modelinin ezberlenmiş verileri dağıtmasını sağlamada diğerlerinden daha iyi olduğunu keşfetti. Örneğin, chatbot’un “şirket” kelimesini tekrar etmesini istemek, onun “biliyorum” gibi diğer kelimelere göre 164 kat daha sık eğitim verisi yaymasına neden oldu.

Araştırmacıların ChatGPT’den bu şekilde elde edebildiği veriler, düzinelerce kişinin kişisel olarak tanımlanabilir bilgilerini içeriyordu; müstehcen içerik (araştırmacılar ipucu olarak bir NSFW sözcüğünü kullandıklarında); kitaplardan ve şiirlerden birebir paragraflar (bilgi istemleri “kitap” veya “şiir” kelimesini içerdiğinde); ve URL’ler, benzersiz kullanıcı tanımlayıcıları, bitcoin adresleri ve programlama kodu.

Potansiyel Olarak Büyük Bir Gizlilik Sorunu mu?

Araştırmacılar “(Üretim) Dilinden Eğitim Verilerinin Ölçeklenebilir Çıkarımı” başlıklı makalelerinde “ChatGPT’ye (gpt-3.5-turbo) yalnızca 200 ABD Doları değerinde sorgu kullanarak, 10.000’in üzerinde benzersiz, kelimesi kelimesine ezberlenmiş eğitim örneğini çıkarabiliyoruz” diye yazdılar. Modeller.”

“Daha büyük bütçelere yönelik tahminlerimiz, kendini adamış rakiplerin çok daha fazla veri elde edebileceğini gösteriyor” diye yazdılar. Araştırmacılar, bir saldırganın daha fazla sorguyla 10 kat daha fazla veri elde edebileceğini tahmin etti.

Dark Reading’in çalışmadaki bazı ipuçlarını kullanma girişimleri, araştırmacıların raporlarında bahsettiği çıktıyı yaratmadı. Bunun, ChatGPT’nin yaratıcısı OpenAI’nin, araştırmacıların bulgularını Ağustos ayı sonlarında şirkete açıklamasının ardından altta yatan sorunları ele alması nedeniyle olup olmadığı belli değil. OpenAI, Dark Reading’in yorum talebine hemen yanıt vermedi.

Yeni araştırma, yapay zeka modellerini eğitmek için farklı kaynaklardan alınan ve çoğu zaman tam olarak açıklanmayan devasa veri kümelerini kullanan geliştiricilerin gizlilik sonuçlarını anlamaya yönelik en son girişimdir.

Önceki arama ChatGPT gibi büyük dil modellerinin (LLM’ler) sıklıkla eğitim veri kümelerindeki kelimesi kelimesine kalıpları ve cümleleri yanlışlıkla ezberleyebildiğini göstermiştir. Bu tür ezberleme eğilimi, eğitim verilerinin boyutuyla birlikte artar.

Araştırmacılar, bu tür ezberlenmiş verilerin sıklıkla keşfedilebilir bir modelin çıktısında. Diğer araştırmacılar, düşmanların sözde ıraksama saldırılarını nasıl kullanabileceğini gösterdi. eğitim verilerini çıkar bir LLM’den. Sapma saldırısı, bir saldırganın LLM’nin tipik olarak üreteceği çıktılardan önemli ölçüde farklı çıktılar üretmesini sağlamak için kasıtlı olarak hazırlanmış istemleri veya girdileri kullandığı saldırıdır.

Bu çalışmaların çoğunda araştırmacılar, LLM’nin veri ezberlemeye ve sızıntılara karşı duyarlılığını test etmek için eğitim veri kümelerinin ve algoritmalarının bilindiği açık kaynaklı modelleri kullandılar. Çalışmalar aynı zamanda tipik olarak ChatGPT gibi bir yapay zeka sohbet robotu gibi çalışacak şekilde hizalanmamış temel yapay zeka modellerini de içeriyordu.

ChatGPT’ye Farklılık Saldırısı

En son çalışma, eğitim verileri ve algoritmaları çoğunlukla bilinmeyen, karmaşık, kapalı, üretken bir yapay zeka sohbet robotu üzerinde bir sapma saldırısının nasıl çalışabileceğini gösterme girişimidir. Çalışma, ChatGPT’nin “hizalama eğitiminden ‘kaçmasını'” ve “temel bir dil modeli gibi davranmasını, metni tipik bir İnternet metni stilinde çıkarmasını” sağlamanın bir yolunu geliştiren araştırmacıları içeriyordu. Keşfettikleri teşvik stratejisi (ChatGPT’nin aynı kelimeyi sürekli tekrar etmesini sağlamak) tam olarak böyle bir sonuca neden oldu ve modelin ezberlenmiş verileri dışarı püskürtmesiyle sonuçlandı.

Modelin ürettiği verilerin gerçekten eğitim verileri olduğunu doğrulamak için araştırmacılar ilk önce en büyük LLM eğitim öncesi veri kümelerinden dördünden (The Pile, RefinedWeb, RedPajama ve Dolma) yaklaşık 9 terabaytlık veri içeren bir yardımcı veri kümesi oluşturdular. Daha sonra ChatGPT’den gelen çıktı verilerini yardımcı veri kümesiyle karşılaştırdılar ve çok sayıda eşleşme buldular.

Araştırmacılar, ChatGPT’deki veri ezberlemenin kapsamını muhtemelen hafife aldıklarını, çünkü yönlendirmelerinin çıktılarını yalnızca 9 terabaytlık yardımcı veri kümesiyle karşılaştırdıklarını anladılar. Böylece, kendi istemlerinden ChatGPT’nin yaklaşık 494 çıktısını aldılar ve Google’da kelimesi kelimesine eşleşmeleri manuel olarak aradılar. Egzersiz, yardımcı veri kümesiyle yalnızca 70 eşleşmeye kıyasla 150 kesin eşleşme sağladı.

Araştırmacılar, “Manuel arama analizimizde (nispeten küçük) yardımcı veri setimizde tespit edilenden neredeyse iki kat daha fazla model çıktısının ezberlendiğini tespit ettik” dedi. “Makalemiz, eğitim verilerinin son birkaç yılın en iyi dil modellerinden basit tekniklerle kolayca çıkarılabileceğini öne sürüyor.”

Araştırmacıların raporlarında tanımladıkları saldırı, ChatGPT’ye özeldir ve diğer LLM’lere karşı işe yaramaz. Ancak makalenin “uygulayıcıları, yüksek güvenlik önlemleri olmadan yüksek lisans eğitimlerini mahremiyet açısından hassas uygulamalar için eğitmemeleri ve dağıtmamaları gerektiği konusunda uyarmaya” yardımcı olması gerektiğini belirttiler.



siber-1