Yeni LLM Hacking Tekniği: Araştırmacılar Büyük Dil Modellerinin Güvenlik Sistemlerini Atlamanın Bir Yolunu Keşfediyor

Bir siber güvenlik ve tehdit araştırma birimi olan Palo Alto Networks Unit 42’den siber güvenlik araştırmacıları, Büyük Dil Modeli (LLM) güvenlik sistemlerini atlayabilen ve potansiyel olarak zararlı veya kötü niyetli yanıtlar alabilen yeni bir hackleme tekniğini ortaya çıkardı.

Bu stratejiye Kötü Likert Hakimi kod adı verildi. Araştırmacılar Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından geliştirildi.

“Bu teknik, hedef LLM’yi, yanıtın zararlılığını Likert ölçeğine göre derecelendiren bir yargıç olarak kullanıyor. Likert ölçeği, yanıtlayanın bir ifadeye ne ölçüde katılıp katılmadığını ölçen bir yöntemdir. LLM daha sonra Likert ölçeğinin farklı seviyelerine karşılık gelen örnekleri içeren yanıtlar üretir. Ancak ölçekte en yüksek puana sahip yanıt potansiyel olarak zararlı içerik içerebilir” diye açıkladı Ünite 42’den araştırmacılar.

Son yıllarda yapay zekanın popülaritesi, sorgu enjeksiyonları adı verilen ve özel talimatlar geçirerek bir makine öğrenimi modelini amaçlanan davranışını geçersiz kılacak şekilde kandırmak için özel olarak tasarlanmış yeni bir güvenlik açıkları sınıfının ortaya çıkmasına yol açtı.

Kaynak: DALL-E

İstek enjeksiyonunun bir türü, çok atışlı jailbreak olarak bilinen bir saldırı yöntemidir. Bu yöntem, modelin dahili savunma mekanizmalarını atlarken, LLM’yi sırayla kötü niyetli bir yanıt üretmeye iten bir dizi istek oluşturmak için LLM’nin uzun bağlam penceresinden ve dikkat mekanizmasından yararlanır. Bu tür Crescendo ve Aldatıcı Zevk tekniklerini içerir.

Unit 42 tarafından Amazon Web Services, Google, Meta*, Microsoft, OpenAI ve NVIDIA’nın altı amiral gemisi LLM modeline karşı çeşitli kategorilerde gerçekleştirilen testler, bu tekniğin basit saldırı istekleriyle karşılaştırıldığında saldırı başarı oranını (ASR) %60’tan fazla artırabildiğini gösterdi. ortalama olarak.

Bu kategoriler nefret, taciz, kendine zarar verme, cinsel içerik, karşılıksız silah kullanımı, yasa dışı faaliyetler, kötü amaçlı yazılım oluşturma ve sistem isteği sızıntılarını içerir.

“LLM’nin zararlı içerik anlayışından ve yanıtları değerlendirme becerisinden yararlanan bu teknik, bir modelin güvenlik sistemlerini başarıyla atlatma olasılığını önemli ölçüde artırabilir. Sonuçlarımız, içerik filtrelerinin, test edilen tüm modellerde ortalama yüzde 89,2 puanla saldırı hızının azaltılması (ASR) üzerinde önemli bir etkiye sahip olabileceğini gösteriyor. Bu, LLM’yi gerçek dünyadaki uygulamalara dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemenin uygulanmasının önemini vurgulamaktadır” diye belirtti araştırmacılar.

Araştırma, The Guardian’ın, OpenAI’nin arama aracı ChatGPT’nin, gizli içerik içeren web sayfalarını özetlemesini isteyerek tamamen yanıltıcı girdilerle kandırılabileceğini bildirmesinden birkaç gün sonra geldi.

“Bu teknikler kötü niyetli olarak kullanılabilir, örneğin ChatGPT’yi aynı sayfadaki olumsuz yorumlara rağmen bir ürün için olumlu bir derecelendirme vermeye zorlamak için kullanılabilir. İngiliz gazetesi, “Üçüncü şahıslar tarafından talimat olmadan gizli metinlerin eklenmesi de olumlu bir derecelendirme sağlamak için kullanılabilir; bir testte, ChatGPT tarafından döndürülen özeti etkileyen oldukça olumlu sahte incelemeler dahil edildi” dedi.

*Meta şirketi Rusya Federasyonu’nda aşırılıkçı bir örgüt olarak tanınıyor ve yasaklanıyor

genel-22

Sanal Medya

Son Eklenenler

Snapmaker, açık kaynak 3D yazıcılar için 150,000$ Yenilik Fonu başlattı

Çin, Mythos’a Erişim Sağlamış Olabilir

Uygulamanız ile Geçit Arasında Uyuşmazlık Olduğunda: Yetim Temizleme ve Durum Uzlaşması

Apple, G4’ün ihracat yasağıyla pazarlama fırsatı yarattı

Conclave’ın Albümü NYC Yaz Bloğu Partisi Sesini Taşıyor

Yapay Zeka Şirketleri Halka Açılırken Kimler Bu Yolculukta?

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer