Şirketler, siber saldırganların geniş dilli modelleri (LLM’ler) ve sistemlerini otomatik olarak tarayıp kullanan diğer üretken yapay zeka sistemlerini kullanarak yeni bir savunma müttefiki kazanabileceğinden endişeleniyor: saldıran yapay zekayı alt üst edebilecek bir sistem.
Mantis olarak adlandırılan savunma sistemi, hedeflenen hizmetleri taklit etmek için aldatıcı teknikler kullanıyor ve olası bir otomatik saldırganı tespit ettiğinde, anında enjeksiyon saldırısı içeren bir yükü geri gönderiyor. George Mason Üniversitesi’nden bir grup araştırmacının kaleme aldığı makaleye göre karşı saldırı, terminalde oturan bir insan saldırgan için görünmez hale getirilebilecek ve kötü niyetli LLM kullanmayan meşru ziyaretçileri etkilemeyecektir.
GMU’da bilgisayar bilimi yardımcı doçenti ve makalenin yazarlarından biri olan Evgenios Kornaropoulos, penetrasyon testinde kullanılan Yüksek Lisans’ların tekil olarak hedefleri istismar etmeye odaklandığından kolayca seçilebileceğini söylüyor.
“Yüksek Lisans hedefi yakalamaya gerçekten yakın olduğuna inandığı sürece aynı döngüyü denemeye devam edecek” diyor. “Yani aslında, LLM’lerin bu sızma testi senaryoları sırasında benimsediği bu güvenlik açığından – bu açgözlü yaklaşımdan – bir nevi yararlanıyoruz.”
Siber güvenlik araştırmacıları ve yapay zeka mühendisleri, LLM’lerin saldırganlar tarafından kullanılması için çeşitli yeni yollar önerdiler. İtibaren ConfusedPilot saldırısıAlma-artırılmış oluşturma (RAG) uygulamaları sırasında belgeleri alırken LLM’lere saldırmak için dolaylı istem enjeksiyonunu kullanan . CodeBreaker saldırısıKod üreten LLM’lerin güvenli olmayan kod önermesine neden olan saldırganların görüş alanında otomatik sistemler var.
Ancak yüksek lisansların saldırı ve savunma amaçlı kullanımlarına ilişkin araştırmalar henüz erken: Tehdit savunma firması GreyNoise Intelligence’ın baş veri bilimcisi Dan Grant, yapay zeka destekli saldırıların aslında halihazırda bildiğimiz saldırıları otomatikleştirdiğini söylüyor. Ancak saldırganlar arasında otomasyon kullanımının arttığına dair işaretler artıyor: Saldırıların hacmi yavaş yavaş artıyor ve bir güvenlik açığından yararlanma süresi yavaş yavaş azalıyor.
“LLM’ler daha önce gerçekten görmediğimiz ekstra bir otomasyon ve keşif katmanını mümkün kılıyor, ancak [attackers are] bir saldırıya hâlâ aynı rotayı uyguluyoruz” diyor. “Eğer bir SQL enjeksiyonu yapıyorsanız, ister bir LLM yazmış olsun, ister bir insan yazmış olsun, bu yine de bir SQL enjeksiyonudur. Ama olan şey, bir kuvvet çarpanıdır.”
Doğrudan Saldırılar, Dolaylı Enjeksiyonlar ve Tetikleyiciler
Araştırmalarında GMU ekibi, hızlı enjeksiyonun saldırganı etkileyip etkilemeyeceğini görmek için saldıran bir LLM ile savunma sistemi olan Mantis arasında bir oyun yarattı. Hızlı enjeksiyon saldırıları genellikle iki şekilde gerçekleşir. Doğrudan istem enjeksiyon saldırıları, bir sohbet robotu veya bir API arayüzüne gönderilen bir istek gibi doğrudan LLM arayüzüne girilen doğal dildeki komutlardır. Dolaylı anında enjeksiyon saldırıları, bir LLM tarafından alınan belgelerde, web sayfalarında veya veritabanlarında yer alan ifadelerdir; örneğin bir LLM, almayla artırılmış nesil (RAG) yeteneğinin bir parçası olarak verileri tarar.
GMU araştırmasında, saldıran LLM, amacının bir parçası olarak bir makineyi tehlikeye atmaya ve belirli yükleri teslim etmeye çalışırken, savunma sistemi ise saldırganın başarısını engellemeyi amaçlıyor. Saldıran bir sistem tipik olarak ortamın mevcut durumunu değerlendiren, hedefine doğru ilerlemek için bir eylem seçen, eylemi yürüten ve hedeflenen sistemin tepkisini analiz eden yinelemeli bir döngü kullanır.
Sahte bir FTP sunucusu kullanan Mantis, LLM temsilcisine bir istem enjeksiyon saldırısı gönderir. Kaynak: “AI-Hacker’ı Hacklemek” makalesi, George Mason Üniversitesi
GMU araştırmacılarının yaklaşımı, saldıran yapay zekaya gönderilen yanıta hızlı enjeksiyon komutları yerleştirerek son adımı hedeflemektir. Saldırganın web oturum açma sayfası veya sahte FTP sunucusu gibi sahte bir hizmete ilk erişim sağlamasına izin vererek grup, saldırıya katılan herhangi bir LLM’ye talimatlar içeren metin içeren bir veriyi geri gönderebilir.
Araştırmacılar, “Mantis, hızlı enjeksiyonları sistem yanıtlarına stratejik olarak yerleştirerek LLM tabanlı aracıları etkileyip yanlış yönlendirerek onların saldırı stratejilerini bozuyor” dedi. makalelerinde belirttikleri. “Mantis konuşlandırıldıktan sonra otonom olarak çalışır ve tespit edilen etkileşimlerin doğasına göre karşı önlemleri düzenler.”
Araştırmacılar, saldıran yapay zekanın yanıtları analiz etmesi nedeniyle savunan ile saldırgan arasında bir iletişim kanalı oluşturulduğunu belirtti. Savunmacı iletişimi kontrol ettiğinden, aslında saldırganın LLM’sindeki zayıflıklardan yararlanmaya çalışabilir.
Karşı Saldırı, Pasif Savunma
Mantis ekibi iki tür savunma eylemine odaklandı: Saldırganı yavaşlatmaya ve eylemlerinin maliyetini artırmaya çalışan pasif savunmalar ve geri saldırıp saldırganın sisteminde komutları çalıştırma yeteneği kazanmayı amaçlayan aktif savunmalar. Makalede, her iki stratejinin de anında enjeksiyon yaklaşımını kullanarak %95’in üzerinde başarı oranıyla etkili olduğu belirtildi.
GMU’dan araştırmacı ve makalenin başyazarı Dario Pasquini, araştırmacıların, saldıran bir yüksek lisans eğitimini ne kadar hızlı yönlendirebildiklerini, bunun da kaynakları tüketmesine veya hatta savunmacıya karşı bir ters kabuk açmasına neden olabilmelerine şaşırdıklarını söylüyor. .
“LLM’yi istediğimizi yapmaya yönlendirmek bizim için çok ama çok kolaydı” diyor. “Genellikle normal bir ortamda hızlı enjeksiyon biraz daha zordur, ancak burada – sanırım temsilcinin gerçekleştirmesi gereken görev çok karmaşık olduğu için – LLM’nin bir şey yapmasını önermek gibi her türlü istem enjeksiyonu aksi takdirde [effective]”
LLM’ye bir komutun, istem metnini terminalden gizleyen ANSI karakterleriyle parantez içine alınmasıyla, saldırı, bir insan saldırganın bilgisi olmadan gerçekleşebilir.
Hızlı Enjeksiyon Zayıflıktır
Siber güvenlik mühendisliği profesörü Giuseppe Ateniese, LLM’lerinin dayanıklılığını artırmak isteyen saldırganlar sistemlerini açıklardan yararlanmaya karşı güçlendirmeye çalışsa da asıl zayıflığın, komutları istemlere enjekte edebilme yeteneği olduğunu ve bunun çözülmesi zor bir sorun olduğunu söylüyor. George Mason Üniversitesi’nde.
“Yaması çok zor olan şeylerden yararlanıyoruz” diyor. “Şimdilik bunu çözmenin tek yolu döngüye bir insanı dahil etmek, ama eğer döngüye insanı koyarsanız o zaman ilk etapta Yüksek Lisans’ın amacı nedir?”
Sonuçta, anlık enjeksiyon saldırıları etkili olmaya devam ettiği sürece Mantis, saldıran yapay zekaları ava dönüştürmeye devam edebilecek.