Siber güvenlik araştırmacıları, büyük dil modelinin (LLM) güvenlik korkuluklarını aşmak ve potansiyel olarak zararlı veya kötü niyetli yanıtlar üretmek için kullanılabilecek yeni bir jailbreak tekniğine ışık tuttu.
Çok dönüşlü (diğer adıyla çok atışlı) saldırı stratejisinin kod adı verilmiştir Kötü Likert Hakimi Palo Alto Networks Birim 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından.
“Teknik, hedef LLM’den belirli bir yanıtın zararlılığını puanlayan bir yargıç gibi hareket etmesini ister. Likert ölçeğiBirim 42 ekibi, yanıtlayanın bir ifadeye katılıp katılmadığını ölçen bir derecelendirme ölçeğidir. söz konusu.
“Daha sonra LLM’den ölçeklerle uyumlu örnekleri içeren yanıtlar üretmesini ister. En yüksek Likert ölçeğine sahip örnek, potansiyel olarak zararlı içerik içerebilir.”
Son yıllarda yapay zekanın popülaritesindeki patlama, aynı zamanda, bir makine öğrenimi modelinin devreye girmesine neden olmak için açıkça tasarlanmış olan, istem enjeksiyonu adı verilen yeni bir güvenlik açıkları sınıfına da yol açtı. amaçlanan davranışını görmezden gelin özel hazırlanmış talimatları (yani istemleri) ileterek.
Hızlı enjeksiyonun belirli bir türü, adı verilen bir saldırı yöntemidir. çok atışlı jailbreakLLM’nin uzun süreden yararlanan bağlam penceresi ve LLM’yi, dahili korumalarını tetiklemeden, kötü niyetli bir yanıt üretmeye yavaş yavaş iten bir dizi istem oluşturmaya dikkat edin. Bu tekniğin bazı örnekleri Crescendo ve Deceptive Delight’ı içerir.
Ünite 42 tarafından gösterilen en son yaklaşım, Likert psikometrik ölçeğini kullanarak belirli bir yanıtın zararlılığını değerlendirmek için LLM’nin bir yargıç olarak kullanılmasını ve ardından modelden çeşitli puanlara karşılık gelen farklı yanıtlar sağlamasını istemeyi gerektirir.
Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA’nın son teknolojiye sahip altı metin oluşturma LLM’sine karşı geniş bir kategori yelpazesinde gerçekleştirilen testlerde, tekniğin saldırı başarı oranını (ASR) artırabildiği ortaya çıktı. ortalama olarak düz saldırı istemlerine kıyasla %60’tan fazla.
Bu kategoriler arasında nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasa dışı faaliyetler, kötü amaçlı yazılım üretimi ve sistem istemi sızıntısı yer alıyor.
Araştırmacılar, “LLM’nin zararlı içerik anlayışından ve yanıtları değerlendirme yeteneğinden yararlanarak, bu teknik, modelin güvenlik korkuluklarını başarıyla aşma şansını önemli ölçüde artırabilir” dedi.
“Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR’yi ortalama yüzde 89,2 puan azaltabildiğini gösteriyor. Bu, LLM’leri gerçek dünya uygulamalarında dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemeyi uygulamanın kritik rolünü gösteriyor.”
Gelişme, The Guardian’ın bir raporunun OpenAI’nin ChatGPT arama aracı gizli içerik barındıran web sayfalarını özetlemesi istenerek tamamen yanıltıcı özetler oluşturacak şekilde aldatılabilir.
Birleşik Krallık gazetesi, “Bu teknikler, örneğin aynı sayfadaki olumsuz incelemelere rağmen ChatGPT’nin bir ürüne ilişkin olumlu değerlendirme vermesine neden olmak için kötü niyetli olarak kullanılabilir.” söz konusu.
“Gizli metnin üçüncü taraflarca talimat olmadan basit bir şekilde dahil edilmesi, olumlu bir değerlendirme sağlamak için de kullanılabilir; bir test, ChatGPT tarafından döndürülen özeti etkileyen son derece olumlu sahte incelemeleri içerir.”


