Siber güvenlik araştırmacıları, etkileşimli bir konuşma sırasında zararsız dil modellerinin arasına istenmeyen bir talimatı gizlice sızdırarak büyük dil modellerini (LLM’ler) jailbreak yapmak için kullanılabilecek yeni bir rakip tekniğe ışık tuttu.
Yaklaşım, Palo Alto Networks Unit 42 tarafından Deceptive Delight olarak kodlandı ve bu yaklaşım onu hem basit hem de etkili olarak tanımladı ve üç etkileşim turunda %64,6 ortalama saldırı başarı oranına (ASR) ulaştı.
Unit 42’den Jay Chen ve Royce Lu, “Aldatıcı Delight, büyük dil modellerini (LLM) etkileşimli bir sohbete dahil eden, güvenlik korkuluklarını yavaş yavaş aşarak onları güvenli olmayan veya zararlı içerik üretmeye yönlendiren çok dönüşlü bir tekniktir” dedi.
Aynı zamanda, modeli kademeli olarak zararlı çıktılar üretmeye yönlendirmek yerine, güvenli olmayan veya kısıtlanmış konuların zararsız talimatlar arasına sıkıştırıldığı Crescendo gibi çok turlu jailbreak (diğer adıyla çok atışlı jailbreak) yöntemlerinden biraz farklıdır.
Son araştırmalar aynı zamanda Yüksek Lisans’ın güvenlik ağını aşabilen bir kara kutu jailbreak yöntemi olan Bağlam Füzyon Saldırısı (CFA) olarak adlandırılan yöntemi de araştırdı.
Bir grup araştırmacı, “Bu yöntem yaklaşımı, anahtar terimlerin hedeften filtrelenmesini ve çıkarılmasını, bu terimler etrafında bağlamsal senaryolar oluşturulmasını, hedefin senaryolara dinamik olarak entegre edilmesini, hedef içindeki kötü amaçlı anahtar terimlerin değiştirilmesini ve böylece doğrudan kötü niyetli niyetin gizlenmesini içerir.” Xidian Üniversitesi ve 360 Yapay Zeka Güvenlik Laboratuvarı’ndan söz konusu Ağustos 2024’te yayınlanan bir makalede.
Deceptive Delight, iki konuşma sırası içinde bağlamı manipüle ederek ve böylece yanlışlıkla güvenli olmayan içeriği ortaya çıkaracak şekilde kandırarak Yüksek Lisans’ın doğasında olan zayıflıklardan yararlanmak üzere tasarlanmıştır. Üçüncü bir dönüşün eklenmesi, zararlı çıktının ciddiyetini ve ayrıntısını artırma etkisine sahiptir.
Bu, modelin tepkiler üretirken bağlamsal farkındalığı işleme ve koruma kapasitesini ifade eden sınırlı dikkat süresinden faydalanmayı içerir.
Araştırmacılar, “LLM’ler, zararsız içeriği potansiyel olarak tehlikeli veya zararlı materyalle harmanlayan yönlendirmelerle karşılaştıklarında, sınırlı dikkat süreleri, tüm bağlamı tutarlı bir şekilde değerlendirmeyi zorlaştırıyor” diye açıkladı.
“Karmaşık veya uzun pasajlarda model, güvenli olmayan yönleri gözden kaçırırken veya yanlış yorumlarken iyi huylu yönlere öncelik verebilir. Bu, bir kişinin dikkati bölünmüşse, önemli ancak incelikli uyarıları ayrıntılı bir raporda nasıl gözden kaçırabileceğini yansıtıyor.”
Birim 42 bunu söyledi test edildi Nefret, taciz, kendine zarar verme, cinsellik, şiddet ve tehlikeli gibi altı geniş kategoride 40 güvensiz konuyu kullanan sekiz yapay zeka modeli, şiddet kategorisindeki güvenli olmayan konuların çoğu modelde en yüksek ASR’ye sahip olma eğiliminde olduğunu buldu.
Bunun da ötesinde, ortalama Zararlılık Puanının (HS) ve Kalite Puanının (QS) ikinci virajdan üçüncü viraja sırasıyla %21 ve %33 oranında arttığı ve üçüncü turun da tüm zamanların en yüksek ASR’sine ulaştığı görüldü. modeller.
Aldatıcı Zevk’in oluşturduğu riski azaltmak için sağlam bir yaklaşımın benimsenmesi önerilir. içerik filtreleme stratejisiLLM’lerin dayanıklılığını artırmak için hızlı mühendislik kullanın ve kabul edilebilir girdi ve çıktı aralığını açıkça tanımlayın.
Araştırmacılar, “Bu bulgular, yapay zekanın doğası gereği güvensiz veya güvensiz olduğunun kanıtı olarak görülmemelidir” dedi. “Daha ziyade, bu modellerin kullanışlılığını ve esnekliğini korurken jailbreak risklerini azaltmak için çok katmanlı savunma stratejilerine duyulan ihtiyacı vurguluyorlar.”
Yeni çalışmalar, üretken yapay zeka modellerinin, geliştiricilere var olmayan paketler önerebilecekleri bir tür “paket karışıklığı”na açık olduğunu gösterdiğinden, Yüksek Lisans’ların jailbreak ve halüsinasyonlara karşı tamamen bağışık olması pek olası değildir.
Bu, kötü niyetli aktörlerin halüsinasyonlu paketler oluşturması, bunları kötü amaçlı yazılımla tohumlaması ve açık kaynak depolarına itmesi durumunda yazılım tedarik zinciri saldırılarını körüklemek gibi talihsiz bir yan etkiye neden olabilir.
Araştırmacılar, “Halüsinasyonlu paketlerin ortalama yüzdesi, ticari modeller için en az %5,2 ve açık kaynaklı modeller için %21,7’dir; halüsinasyonlu paket adlarının şaşırtıcı 205.474 benzersiz örneği de dahil olmak üzere, bu durum, bu tehdidin ciddiyetini ve yaygınlığını daha da vurgulamaktadır.” söz konusu.