Büyük dil modellerinin endüstride ve kuruluşlar genelinde hızla artan kullanımı, LLM’lerin belirli şekillerde istendiğinde zararlı ve önyargılı içerik üretme konusundaki duyarlılığını test etmeye odaklanan bir dizi araştırma faaliyetini ateşledi.
En son örnek, Robust Intelligence ve Yale Üniversitesi’ndeki araştırmacılar tarafından hazırlanan ve en son teknolojiye sahip kara kutu Yüksek Lisansı’nın bile yaratıcıları tarafından yerleştirilen korkuluklardan kaçmasını ve toksik içerik üretmesini sağlayan tamamen otomatik bir yolu açıklayan yeni bir makaledir.
Budama ile Saldırı Ağacı
Kara kutu LLM’leri temelde ChatGPT’nin arkasındakiler gibi mimarisi, veri kümeleri, eğitim metodolojileri ve diğer ayrıntıları kamuya açıklanmayan büyük dil modelleridir.
Araştırmacıların adını verdiği yeni yöntem Budama ile Saldırı Ağacı (TAP), temel olarak hizalanmamış bir LLM’nin başka bir hizalanmış LLM’yi “jailbreak” yapmak veya korkuluklarını hızla ve yüksek bir başarı oranıyla aşmasını sağlamak için kullanılmasını içerir. ChatGPT ve diğer AI sohbet robotlarının arkasındaki gibi uyumlu bir LLM, açıkça zarar potansiyelini en aza indirecek şekilde tasarlanmıştır ve örneğin, normalde bir bombanın nasıl yapılacağına ilişkin bilgi talebine yanıt vermez. Hizalanmamış bir Yüksek Lisans, doğruluk için optimize edilmiştir ve genellikle bu tür kısıtlamalara sahip değildir veya daha azdır.
Araştırmacılar, TAP ile, potansiyel olarak zararlı bir konu hakkında hizalanmış bir hedef LLM’yi teşvik etmek için hizalanmamış bir LLM’yi nasıl elde edebileceklerini ve ardından orijinal istemi iyileştirmeye devam etmek için yanıtını nasıl kullanabileceklerini gösterdiler. Süreç temel olarak, oluşturulan istemlerden biri hedef LLM’yi jailbreak yapıp istenen bilgiyi vermesini sağlayana kadar devam eder. Araştırmacılar, en yeni uyumlu LLM’leri bile jailbreak yapmak için küçük LLM’leri kullanabildiklerini keşfettiler.
Araştırmacılar, “Deneysel değerlendirmelerde, TAP’ın yalnızca az sayıda sorgu kullanarak istemlerin %80’inden fazlası için son teknoloji LLM’leri (GPT4 ve GPT4-Turbo dahil) jailbreak yapan istemler ürettiğini gözlemledik” diye yazdı. “Bu, jailbreak oluşturmak için önceki son teknoloji ürünü kara kutu yöntemini önemli ölçüde geliştiriyor.”
Hızla Artan Araştırma İlgisi
Yeni araştırma, LLM’lerin eğitim verilerini ve hassas bilgileri doğru yönlendirmeyle açığa çıkarmak gibi istenmeyen davranışlara nasıl ikna edilebileceğini gösteren, son aylarda sayıları giderek artan çalışmaların en sonuncusu. Araştırmalardan bazıları, LLM’lerin, tasarlanmış istemler aracılığıyla onlarla doğrudan etkileşim kurarak potansiyel olarak zararlı veya istenmeyen bilgileri ortaya çıkarmasını sağlamaya odaklandı. Diğer çalışmalar, rakiplerin, hedef LLM’de gizli dolaylı yönlendirmeler yoluyla aynı davranışı nasıl ortaya çıkarabildiğini göstermiştir. metin, ses ve görüntü modelin bir kullanıcı girişine yanıt verirken muhtemelen alacağı verilerdeki örnekler.
Bir modelin amaçlanan davranıştan sapmasını sağlayan bu tür hızlı enjeksiyon yöntemleri, en azından bir dereceye kadar manuel etkileşime dayanmaktadır. Ve istemlerin ürettiği çıktılar çoğu zaman anlamsızdı. Yeni TAP araştırması, bu saldırıların tamamen otomatik ve daha güvenilir bir şekilde nasıl uygulanabileceğini gösteren önceki çalışmaların geliştirilmiş halidir.
Ekim ayında, Pennsylvania Üniversitesi’ndeki araştırmacılar, başka bir Yüksek Lisans kullanarak bir Yüksek Lisans’ı jailbreak yapmak için geliştirdikleri yeni bir algoritmanın ayrıntılarını yayınladılar. Algoritma denir İstemi Otomatik Yinelemeli İyileştirme (PAIR), bir LLM’nin diğerini jailbreak yapmasını içeriyordu. Araştırmacılar, “PAIR, yüksek düzeyde, saldırgan ve hedef olarak adlandırdığımız iki kara kutu LLM’yi birbirine karşı yarıştırıyor; saldırgan modeli, hedef modeli jailbreak yapacak aday istemleri yaratıcı bir şekilde keşfedecek şekilde programlandı.” Onlara göre PAIR, testlerde yalnızca 20 sorguda “anlamsal olarak anlamlı” veya insanlar tarafından yorumlanabilen jailbreak’leri tetikleyebildi. Araştırmacılar bunu önceki jailbreak tekniklerine göre 10.000 kat ilerleme olarak tanımladılar.
Yüksek etkili
Robust Intelligence ve Yale’deki araştırmacıların geliştirdiği yeni TAP yöntemi, araştırmacıların “düşünce ağacı” muhakeme sürecini kullanması bakımından farklı.
Araştırmacılar, “Önemli olan, hedefe uyarı göndermeden önce, TAP bunları değerlendiriyor ve jailbreak ile sonuçlanması muhtemel olmayanları ortadan kaldırıyor” diye yazdı. “Düşünce ağacı mantığının kullanılması, TAP’ın istemlerden oluşan geniş bir arama alanında gezinmesine olanak tanır ve budama, hedefe gönderilen toplam sorgu sayısını azaltır.”
Bu tür araştırmalar önemlidir çünkü birçok kuruluş, potansiyel güvenlik ve gizlilik sonuçlarını fazla düşünmeden LLM teknolojilerini uygulamalarına ve operasyonlarına entegre etme konusunda acele etmektedir. TAP araştırmacılarının raporlarında belirttiği gibi, LLM’lerin çoğu, model geliştiricilerin istenmeyen davranışlara karşı koruma sağlamak için uyguladığı korkuluklara bağımlıdır. Araştırmacılar, “Ancak, OpenAI, Google ve Meta gibi şirketlerin harcadığı kayda değer zaman ve çabaya rağmen, bu korkuluklar bugün işletmeleri ve kullanıcılarını koruyacak kadar dayanıklı değil” dedi. “Model riski, önyargılar ve potansiyel düşmanca istismarlarla ilgili endişeler ön plana çıktı.”