Saldırganlar, tepkiler oluşturmak için yapay zeka (AI) sistemleri tarafından kullanılan veri havuzlarına kötü amaçlı bir belge ekleyebilir, bu da sistemin kafasını karıştırabilir ve potansiyel olarak yanlış bilgilere ve kuruluşlar içinde karar alma süreçlerinin tehlikeye atılmasına yol açabilir.

Austin’deki Texas Üniversitesi’ndeki (UT) Spark Araştırma Laboratuvarı’ndan araştırmacılar, adını verdikleri saldırı vektörünü keşfettiler. Şaşkın Pilot çünkü tüm erişim artırılmış üretimi etkiliyor (RAG) tabanlı yapay zeka sistemleriiçermek Microsoft 365 Yardımcı Pilot. Araştırmacılara göre buna Llama, Vicuna ve OpenAI kullanan diğer RAG tabanlı sistemler de dahil.

Symmetry’nin baş misyoneri Claude Mandy, “Bu saldırı, AI sisteminin referans verebileceği herhangi bir belgeye kötü amaçlı içerik ekleyerek, AI yanıtlarının manipülasyonuna izin veriyor” diye yazdı. kağıt Ağustos ayında DEF CON AI Village 2024 konferansında sunulan ancak geniş çapta haber yapılmayan saldırı hakkında. Araştırma, Symmetry CEO’su ve UT profesörü Mohit Tiwari’nin gözetiminde gerçekleştirildi.

Fortune 500 şirketlerinin %65’inin şu anda RAG tabanlı uyguladığı veya uygulamayı planladığı göz önüne alındığında Yapay zeka sistemleriMandy, “Bu saldırıların potansiyel etkisi abartılamaz” diye yazdı. Ayrıca saldırı, tüm RAG tabanlı yapay zeka uygulamalarının yanıtlarını değiştirmek için yalnızca temel erişim gerektirmesi, kötü amaçlı içerik kaldırıldıktan sonra bile devam edebilmesi ve atlatmalar yapması nedeniyle özellikle tehlikelidir. mevcut yapay zeka güvenlik önlemlerinin alındığını söyledi.

RAG’ın Kötü Amaçlı Manipülasyonu

RAG, yanıt kalitesini artırmaya ve büyük dil modeli (LLM) sisteminin pahalı yeniden eğitim veya ince ayar aşamasını ortadan kaldırmaya yönelik bir tekniktir. Araştırmacılar, bunun, modelin bilgi tabanını genişletmek için harici verileri aldığı sisteme bir adım eklediğini, böylece yeniden eğitime veya ince ayara gerek kalmadan yanıt oluşturmada doğruluğu ve güvenilirliği artırdığını söyledi.

Araştırmacılar, etkilenen tek RAG tabanlı sistem olmasa da sunumları ve makaleleri açısından Microsoft 365 Copilot’a odaklanmayı seçtiler. Araştırmacıların barındırdığı ConfusedPilot web sitesine göre, “bu sorunun ana suçlusu, erişim kontrolü ve veri güvenliği mekanizmalarının uygunsuz kurulumu yoluyla RAG tabanlı sistemlerin kötüye kullanılmasıdır.”

Normal şartlarda, RAG tabanlı bir yapay zeka sistemi, bir vektör veritabanında depolanan kaynakları aramak ve bunlarla eşleştirmek üzere ilgili anahtar kelimeleri çıkarmak için bir alma mekanizması kullanacak ve referans verilecek ilgili bilgileri içeren yeni bir bilgi istemi oluşturmak için bu gömülü bağlamı kullanacaktır.

Saldırı Nasıl Çalışır?

ConfusedPilot saldırısında, bir tehdit aktörü hedefin ortamına özel hazırlanmış dizeler içeren zararsız bir belge sunabilir. Mandy, “Bu, yapay zeka yardımcı pilotu tarafından indekslenen bir ortama belge veya veri kaydetme erişimi olan herhangi bir kimlikle başarılabilir” diye yazdı.

Kullanıcı açısından bakıldığında saldırı akışı şu şekildedir: Kullanıcı ilgili bir sorgu yaptığında RAG sistemi bu dizeleri içeren belgeyi alır. Kötü amaçlı belge, yapay zeka sistemine talimat görevi görebilecek dizeler içeriyor. çeşitli kötü niyetli senaryolar.

Bunlar arasında şunlar yer alır: kötü niyetli talimatların yapay zekanın diğer ilgili, meşru içerikleri göz ardı etmesine neden olduğu içerik bastırma; Yapay zekanın yalnızca bozuk bilgileri kullanarak yanıt oluşturduğu yanlış bilgi üretimi; ve yanıtın yanlışlıkla meşru kaynaklara atfedilebileceği ve algılanan güvenilirliğin artırılabileceği yanlış atıf.

Ayrıca araştırmacılar, kötü amaçlı belge daha sonra kaldırılsa bile, yapay zeka sisteminin talimatları saklaması nedeniyle bozuk bilgilerin sistemin yanıtlarında bir süre daha kalabileceğini belirtti.

Mağduriyet ve Azaltmalar

ConfusedPilot saldırısının temelde iki kurbanı var: Birincisi, RAG tabanlı sistem içindeki LLM’dir, ikincisi ise LLM’den yanıt alan ve büyük olasılıkla büyük bir kuruluşta veya hizmet sağlayıcıda çalışan bir kişi olabilir. Aslında bu iki tür şirket, birden fazla kullanıcının veya departmanın, bunlar tarafından kullanılan veri havuzuna katkıda bulunmasına izin verdiğinden, saldırıya karşı özellikle savunmasızdır. Yapay zeka sistemleriMandy, diye belirtti.

“Birden fazla kaynaktan veya kullanıcıdan (dahili veya harici ortaklardan) veri girişine izin veren herhangi bir ortam, bu saldırının yalnızca verilerin AI Yardımcı Pilotları tarafından indekslenmesini gerektirdiği göz önüne alındığında, daha yüksek risk altındadır” diye yazdı.

Saldırıdan olumsuz etkilenmesi muhtemel kurumsal sistemler arasında kurumsal bilgi yönetimi sistemleri, yapay zeka destekli karar destek sistemleri ve müşteriye yönelik yapay zeka hizmetleri yer alıyor.

Microsoft, Dark Reading’in saldırının Copilot üzerindeki etkisine ilişkin yorum talebine hemen yanıt vermedi. Ancak araştırmacılar makalelerinde şirketin “pratik hafifletme stratejileri” geliştirme konusunda duyarlı davrandığını ve saldırı potansiyelini ele almak AI teknolojisinin geliştirilmesinde. Mandy, aslında ikincisinin, “bu modellerde veri planını kontrol planından ayırmaya çalışan” “daha iyi mimari modellere” bağlı olan böyle bir saldırıya karşı uzun vadeli savunmanın anahtarı olduğunu belirtti.

Bu arada, hafifletmeye yönelik mevcut stratejiler şunları içerir: RAG tabanlı sistemlerin referans verdiği verileri kimin yükleyebileceğini, değiştirebileceğini veya silebileceğini sınırlayan ve inceleyen veri erişim kontrolleri; yetkisiz değişiklikleri veya kötü amaçlı içeriğin girişini erken tespit etmek için bir kuruluşun veri havuzlarının bütünlüğünü düzenli olarak doğrulayan veri bütünlüğü denetimleri; ve bozuk bilgilerin yapay zeka sistemi genelinde yayılmasını önlemek için hassas verileri mümkün olan her yerde daha geniş veri kümelerinden izole eden veri segmentasyonu.



siber-1