Washington ve Chicago merkezli araştırmacılar, büyük dil modellerinde (LLM’ler) yerleşik güvenlik önlemlerini aşmanın yeni bir yolu olan ArtPrompt’u geliştirdi. Araştırma makalesine göre ArtPrompt: Hizalanmış LLM’lere Yönelik ASCII Sanat Tabanlı Jailbreak Saldırıları, GPT-3.5, GPT-4, Gemini, Claude ve Llama2 gibi sohbet robotları, ArtPrompt araçları tarafından oluşturulan ASCII sanat istemlerini kullanarak reddetmek üzere tasarlandıkları sorgulara yanıt vermeye teşvik edilebilir. Bu basit ve etkili bir saldırıdır ve makale, nasıl bomba yapılacağı ve sahte para kazanılacağı konusunda tavsiyelerde bulunan ArtPrompt kaynaklı sohbet robotlarının örneklerini sunmaktadır.

ArtPrompt, kelime maskeleme ve gizlenmiş bilgi istemi oluşturma olmak üzere iki adımdan oluşur. Kelime maskeleme adımında, saldırganın kışkırtmayı amaçladığı hedeflenen davranış göz önüne alındığında, saldırgan öncelikle bilgi istemindeki LLM’lerin güvenlik uyumuyla çelişmesi muhtemel hassas kelimeleri maskeler ve bu da anında reddedilmeye neden olur. Gizlenmiş bilgi istemi oluşturma adımında, saldırgan, tanımlanan sözcükleri ASCII sanatı biçiminde temsil edilenlerle değiştirmek için bir ASCII sanatı oluşturucusunu kullanır. Son olarak, oluşturulan ASCII sanatı, yanıt oluşturmak için mağdur LLM’ye gönderilecek olan orijinal bilgi isteminin yerine kullanılır.

arXiv:2402.11753

Yapay zeka (AI) kullanan sohbet robotları, kötü niyetli suiistimalleri önlemek için giderek daha fazla kilitleniyor. Yapay zeka geliştiricileri, ürünlerinin nefret dolu, şiddet içeren, yasa dışı veya benzer şekilde zararlı içerikleri teşvik edecek şekilde değiştirilmesini istemez. Dolayısıyla, bugün ana akım sohbet robotlarından birine kötü niyetli veya yasa dışı bir şeyin nasıl yapılacağı konusunda soru soracak olsaydınız, muhtemelen yalnızca reddedilmeyle karşı karşıya kalırsınız. Dahası, bir tür teknolojik köstebek vurma oyununda, önde gelen yapay zeka oyuncuları, insanların korkulukların dışına çıkmasını önlemek için dilsel ve anlamsal boşlukları tıkamak için çok zaman harcadılar. ArtPrompt’un oldukça dikkat çekici bir gelişme olmasının nedeni budur.

ArtPrompt’u ve nasıl çalıştığını en iyi şekilde anlamak için muhtemelen en basit yol, aracın arkasındaki araştırma ekibi tarafından sağlanan iki örneğe göz atmak olacaktır. Yukarıdaki Şekil 1’de ArtPrompt’un çağdaş LLM’lerin korumalarını kolayca atlattığını görebilirsiniz. Araç, yeni bir bilgi istemi oluşturmak için ‘güvenlik sözcüğünü’ sözcüğün ASCII resimli temsiliyle değiştirir. LLM, ArtPrompt istem çıktısını tanıyor ancak istem herhangi bir etik veya güvenlik önlemini tetiklemediğinden yanıt vermede herhangi bir sorun görmüyor.

(Resim kredisi: arXiv:2402.11753)

Araştırma makalesinde sunulan başka bir örnek, bir yüksek lisans diplomasının sahte nakit parayla ilgili olarak nasıl başarılı bir şekilde sorgulanacağını göstermektedir. Bir chatbot’u bu şekilde kandırmak çok basit görünüyor, ancak ArtPrompt geliştiricileri araçlarının günümüzün Yüksek Lisans’larını nasıl “etkili ve verimli bir şekilde” kandırdığını iddia ediyor. Üstelik “hepsinden daha iyi performans gösterdiğini” iddia ediyorlar [other] ortalama saldırılar” ve şimdilik çok modlu dil modelleri için pratik, uygulanabilir bir saldırı olmaya devam ediyor.



genel-21