Google’ın İkizler burcu Büyük dil modeli (LLM), sistem istemlerini ifşa etmesine, zararlı içerik üretmesine ve dolaylı enjeksiyon saldırıları gerçekleştirmesine neden olabilecek güvenlik tehditlerine karşı hassastır.
Bulgular, sorunların Google Workspace ile Gemini Advanced kullanan tüketicilerin yanı sıra LLM API kullanan şirketleri de etkilediğini söyleyen HiddenLayer’dan geliyor.
İlk güvenlik açığı, modelden “temel talimatlarını” çıkarmasını isteyerek LLM’nin daha yararlı yanıtlar üretmesine yardımcı olmak için konuşma çapında talimatlar ayarlamak üzere tasarlanmış sistem istemlerini (veya bir sistem mesajını) sızdırmak için güvenlik korkuluklarını aşmayı içerir. ” bir işaretleme bloğunda.
Microsoft, “LLM’yi bağlam hakkında bilgilendirmek için bir sistem mesajı kullanılabilir” notlar LLM istem mühendisliği hakkındaki belgelerinde.
“Bağlam, katıldığı konuşmanın türü veya gerçekleştirmesi beklenen işlev olabilir. Yüksek Lisans’ın daha uygun yanıtlar üretmesine yardımcı olur.”
Bu, modellerin güvenlik savunmalarını ve içerik kısıtlamalarını aşmaya yönelik eşanlamlı saldırı olarak adlandırılan saldırılara karşı duyarlı olması nedeniyle mümkün olmaktadır.
İkinci bir güvenlik açığı sınıfı, Gemini modellerinin seçimler gibi konularla ilgili yanlış bilgiler üretmesinin yanı sıra, kendisinden içeri girmesini isteyen bir komut istemi kullanarak potansiyel olarak yasa dışı ve tehlikeli bilgiler (örneğin, bir arabaya sıcak kablo takmak) üretmesini sağlamak için “kurnazca jailbreak” tekniklerinin kullanılmasıyla ilgilidir. kurgusal bir duruma giriyor.
HiddenLayer tarafından ayrıca, LLM’nin tekrarlanan olağandışı belirteçleri girdi olarak ileterek sistem isteminde bilgi sızdırmasına neden olabilecek üçüncü bir eksiklik olduğu tespit edilmiştir.
Güvenlik araştırmacısı Kenneth Yeung, “Çoğu LLM, kullanıcının girişi ile sistem istemi arasında net bir ayrım yaparak sorgulara yanıt vermek üzere eğitilmiştir.” söz konusu Salı günü yayınlanan bir raporda.
“Bir dizi saçma belirteç oluşturarak, LLM’yi yanıt verme zamanının geldiğine inandırarak kandırabiliriz ve genellikle bilgi istemindeki bilgileri içeren bir onay mesajı yayınlamasını sağlayabiliriz.”
Başka bir test, Gemini Advanced’in ve özel olarak hazırlanmış bir Google dokümanının kullanılmasını içerir; ikincisi, Google Workspace uzantısı aracılığıyla LLM’ye bağlanır.
Belgedeki talimatlar, modelin talimatlarını geçersiz kılmak ve bir saldırganın, kurbanın modelle olan etkileşimleri üzerinde tam kontrole sahip olmasını sağlayan bir dizi kötü amaçlı eylem gerçekleştirmek üzere tasarlanmış olabilir.
Açıklama, Google DeepMind, ETH Zürih, Washington Üniversitesi, OpenAI ve McGill Üniversitesi’nden bir grup akademisyenin katılımıyla geldi. açıklığa kavuşmuş “OpenAI’nin ChatGPT’si veya Google’ın PaLM-2’si gibi kara kutu üretim dili modellerinden kesin, önemsiz bilgilerin” çıkarılmasını mümkün kılan yeni bir model çalma saldırısı.
Bununla birlikte, bu güvenlik açıklarının yeni olmadığını ve sektördeki diğer LLM’lerde mevcut olduğunu belirtmekte fayda var. Bulgular, hızlı saldırılar, eğitim verilerinin çıkarılması, model manipülasyonu, rakip örnekler, veri zehirlenmesi ve sızma için modellerin test edilmesi ihtiyacını vurguluyor.
Bir Google sözcüsü The Hacker News’e şunları söyledi: “Kullanıcılarımızı güvenlik açıklarından korumaya yardımcı olmak için sürekli olarak kırmızı takım çalışmaları yürütüyoruz ve modellerimizi hızlı enjeksiyon, jailbreak ve daha karmaşık saldırılar gibi düşmanca davranışlara karşı savunma sağlayacak şekilde eğitiyoruz.” “Zararlı veya yanıltıcı yanıtları önlemek için sürekli olarak geliştirdiğimiz önlemler de oluşturduk.”
Şirket ayrıca şunları söyledi: yanıtları kısıtlama seçime dayalı sorgulara çok dikkatli bir şekilde yönelmek. Politikanın adaylara, siyasi partilere, seçim sonuçlarına, oylama bilgilerine ve önemli makam sahiplerine ilişkin uyarılara karşı uygulanması bekleniyor.