Resim: Google DeepMind.

Yapay zeka (AI) araştırmacıları, ChatGPT gibi üretken AI programlarının güvenliğini kırmanın yollarını giderek daha fazla buluyor. Özellikle, programların kınanacak davranışlarda bulunmadan yardımcı rollerini oynamaları için belirli sınırlar içinde tutmayı amaçlayan sözde “uyumlaşma” süreci.

Son zamanlarda Kaliforniya Üniversitesi’nden bir grup araştırmacı, çeşitli üretken yapay zeka programlarında bu uyum sürecini “kırmanın” bir yolunu buldu. Bu hafta, Google’ın DeepMind birimindeki araştırmacılar ChatGPT’nin uyumunu bozmanın daha da basit bir yolunu buldular.

Yeni bir saldırı türü

Bunu yapmak için ChatGPT’den bir kelimeyi süresiz olarak tekrarlamasını istediler. Programı, eğitim verilerini içeren tüm literatür pasajlarını tükürmeye zorladılar. Ancak bu tür bir sızıntının uyumlu programlarda meydana gelmemesi gerekir. Daha da endişe verici olanı: Program aynı zamanda bireylerin isimlerini, telefon numaralarını ve adreslerini dağıtacak şekilde de manipüle edilebilir.

Araştırmacılar bu olguyu “çıkarılabilir ezberleme” olarak adlandırdı. Bu, bir programı hafızasında sakladığı öğeleri açıklamaya zorlayan bir saldırıdır. Makalede Milad Nasr’ın ekibi şöyle açıklıyor: “Modelin chatbot benzeri nesillerden sapmasına ve doğru davranışa kıyasla 150 kat daha yüksek oranda eğitim verisi yaymasına neden olan yeni bir saldırı türü geliştirdik.”(Üretim) Dil Modellerinden Eğitim Verilerinin Ölçeklenebilir Çıkarılması“. Ekip ayrıca bir Blog yazısıdaha erişilebilir (İngilizce).

Bu saldırının temel ilkesi, üretken yapay zekanın (burada ChatGPT) daha temel bir çalışma moduna dönmek üzere programlanan hizalamadan sapmasını sağlamaktır.

Eğitim ve uyum

ChatGPT gibi üretken yapay zeka programları “eğitim” adı verilen bir sürece dayanır. Eğitim sırasında, program başlangıçtaki – oldukça biçimsiz – durumunda, çeşitli kaynaklardan (Wikipedia gibi internet sayfaları, yayınlanmış kitaplar) milyarlarca bayt metne maruz kalır.

Bu eğitimin temel amacı, metni sıkıştırıp sonra açarak programın kendisine verileni yansıtmasını sağlamaktır. Teorik olarak, bir program eğitildikten sonra, Vikipedi’den küçük bir metin parçası ona beslenirse ve ayna tepkisini tetiklerse, program eğitim verilerini yeniden oluşturabilir.

Ancak bunu önlemek için ChatGPT ve diğer üretken yapay zeka programları “uyumludur”. Yani, fazladan bir eğitim katmanı alıyorlar, böylece sadece metni tükürmüyorlar. Yararlı mesajlarla yanıt verebilmelidirler. Örneğin bir soruyu nasıl cevaplayacaklarını veya bir okuma özeti yazmaya nasıl yardımcı olacaklarını bilmeleri gerekir. Hizalamayla oluşturulan bu yardımcı sihirbaz karakteri, temeldeki ayna işlevini gizler.

Araştırmacılar, “Çoğu kullanıcı temel modellerle değil,” daha iyi “davranacak, yani insanoğlunun alışkanlıklarıyla daha uyumlu hale getirilmiş dil modelleriyle etkileşime giriyor” diye açıklıyor.

Kelimelerin sürekli tekrarlanması ChatGPT’nin birbirinden ayrılmasına neden olur

Milad Nasr, ChatGPT’yi pratik asistan rolünden uzaklaştırmak için ondan kelimeleri sonsuza kadar tekrarlamasını istedi. OpenAI’nin programı, ayrılmadan önce kelimeyi yüzlerce kez tekrarladı. Daha sonra çeşitli rastgele metin parçacıklarına doğru sürüklenmeye başladı. Ancak araştırmacı, ekibinin “oluşturulanların küçük bir kısmının ezberlenmeye doğru gittiğini: oluşturulan belirli metinlerin doğrudan programın eğitim öncesi verilerinden kopyalandığını” göstermeyi başardığını belirtiyor.

Belirli sayıda tekrardan sonra ChatGPT, eğitim verilerinin bazı kısımlarını açığa çıkaran anlamsız bir metne sürüklenir. Resim: Google DeepMind.

Anlamsız metin, programın eğitim verilerinin (kırmızıyla vurgulanmış) tüm bölümlerini açığa çıkarıyor. Resim: Google DeepMind.

Ekibin daha sonra bu sonuçların gerçekten programın eğitim verilerinden elde edilip edilmediğini belirlemesi gerekiyordu. Böylece neredeyse 10 terabaytlık eğitim verisini temsil eden AUXDataSet adında devasa bir veri kümesi derledi. Bu, önde gelen üretken yapay zeka programları tarafından kullanılan dört farklı eğitim veri kümesinin bir derlemesidir: The Pile, Refined Web, RedPajama ve Dolma. Araştırmacılar, etkili bir indeksleme mekanizması kullanarak bu derlemeyi aranabilir hale getirdiler, böylece eşleşmeleri bulmak için ChatGPT sonuçlarını eğitim verileriyle karşılaştırabildiler.

Metinlerin kopyalanması, uygunsuz içerik ve veri sızıntıları

Daha sonra, bir kelimeyi sonsuz kez tekrarlayarak deneyi binlerce kez gerçekleştirdiler ve saldırılarını “ölçeklendirmek” için AUXDataSet veri kümesindeki sonuçlara binlerce kez baktılar.

Araştırmacılar, kurtardıkları veriler hakkında “Çıkartılan en uzun karakter dizisi 4.000 karakteri aşıyor” dedi. Eğitim verilerinin depolanan birkaç yüz kısmı 1.000’den fazla karaktere ulaşır.

Araştırmacılar, “kitap” veya “şiir” kelimelerini içeren istemlerde romanların tam paragraflarının ve şiirlerin tam kopyalarının bulunduğunu söylüyor. İkincisi de içerik elde etti ” İş için güvenli değil » (NSFW) – yani potansiyel olarak saldırgan – özellikle modelden NSFW etiketli bir kelimeyi tekrarlamasını istediklerinde.

Ekip ayrıca “onlarca kişinin kimliğinin belirlenmesine olanak sağlayan bilgileri” de kurtarmayı başardı. 15.000 denemeden yaklaşık %17’si telefon numaraları gibi “hatırlanan kişisel bilgileri” içeriyordu.

Endişe verici sonuçları olan sınırlı bir deneyim

Araştırmacılar, sızabilecek eğitim verilerini ölçmeyi amaçlıyor. Şu ana kadar büyük miktarda veri buldular ancak araştırmaları, süresiz olarak devam edebilecek deneyin maliyeti nedeniyle sınırlı. Tekrarlanan saldırılarıyla, yeniden çıkarılan veri kümelerinde halihazırda 10.000 “hatırlanan” içerik örneği buldular. Ve bu saldırılara devam edilirse çok daha fazlasının bulunabileceğini varsayıyorlar.

ChatGPT sonuçlarını AUXDataSet sonuçlarıyla karşılaştıran deney, Google Cloud’da Intel Sapphire Rapids Xeon işlemciye ve 1,4 terabayt DRAM’e sahip tek bir makinede gerçekleştirildi. Bu projenin tamamlanması haftalar sürdü. Ancak daha güçlü bilgisayarlara erişim, ChatGPT’yi daha ayrıntılı bir şekilde test etmelerine ve daha fazla sonuç bulmalarına olanak tanıyabilir.

Ekip, “200 ABD doları tutarındaki sınırlı bütçemizle 10.000’den fazla benzersiz örnek çıkardık” diye belirtiyor ve siber saldırganların “ChatGPT API’sini sorgulamak için daha fazla para harcamasının muhtemelen çok daha fazla veri elde edebileceği” uyarısında bulunuyor.

Araştırmacılar, Google aramaları yaparak ChatGPT sonuçlarından yaklaşık 500 örneği manuel olarak kontrol ettiler: Web’de depolanan verilerin neredeyse iki katı kadar örnek buldular. Bu nedenle, ChatGPT’de, AUXDataSet’in boyutuna rağmen, AUXDataSet’te yakalanabilecek miktardan daha fazla veri depolanabilir.

Bazı kelimeler diğerlerinden daha etkilidir

Eğlenceli gerçek: Araştırmacılar, deneylerini gerçekleştirirken belirli kelimelerin diğerlerinden daha etkili olduğunu fark ettiler. Yukarıda sunulan “şiir” kelimesinin tekrarı aslında en az etkili olanlardan biriydi. Kullanılan her kelimenin (veya harf grubunun) gücünü gösteren bu grafikte de görebileceğimiz gibi, durmadan tekrarlanan “şirket” kelimesi tam tersine en etkili kelimeydi:

Resim: Google DeepMind.

Araştırmacılar, ChatGPT’nin ezberlediği metinleri ortaya çıkarmasına tam olarak neyin yol açtığından emin değiller. Programın diğer üretken yapay zeka programlarından daha fazla sayıda “dönem” boyunca eğitildiğini varsayıyorlar, bu da aracın aynı eğitim veri kümelerinden daha fazla sayıda geçtiği anlamına geliyor. “Önceki çalışmalar bunun ezberlemeyi önemli ölçüde artırabileceğini gösterdi” diye yazıyorlar.

Ancak programdan birkaç kelimeyi tekrar etmesini istemenin bir saldırı olarak işe yaramadığını bildiriyorlar çünkü ChatGPT genellikle devam etmeyi reddediyor. Araştırmacılar neden yalnızca tek kelimelik yönlendirmelerin işe yaradığından emin değiller: “Bunun için bir açıklamamız olmasa da, etki önemli ve tekrarlanabilir.” »

Doğru soruları nasıl soracağınızı bilin

Yazarlar bulgularını 30 Ağustos’ta OpenAI’ye ilettiler ve şirketin bu saldırıya karşı koymak için adımlar attığı görülüyor. Böylece ZDNet, ChatGPT’den “şiir” kelimesini süresiz olarak tekrarlamasını isteyerek bu kelimeyi yeniden üretmeyi test etti: program kelimeyi yaklaşık 250 kez tekrarladı ve ardından şu mesajı yayınlayarak kendisini kesti: “Bu içerik, içerikle ilgili politikamızı veya kullanım koşullarımızı ihlal edebilir. kullanmak. »

ZDNET’in ekran görüntüsü.

Üretken yapay zeka modellerini “aynı hizaya getirme” stratejisi “umut verici” olsa da, bu deneyim şunu gösteriyor: “güvenlik, mahremiyetin korunması ve en kötü durum kullanımının kötüye kullanılması konularını tam olarak çözmenin yeterli olmadığını.

Araştırmacıların ChatGPT için kullandığı yaklaşım genelleştirilebilir görünmüyorsa, Milad Nasr ve ekibi üretken yapay zeka geliştiricilerini uyarmak istiyor: “Modeller zarar verme kapasitesine sahip olabilir (örneğin, verileri ezberleyebilir) ancak bu yeteneği açığa çıkarmayabilirler.” sana – nasıl soracağını bilmiyorsan. »

Kaynak : ZDNet.com



genel-15