Google’un Yapay Zeka Güvenliği ve Yeni Stratejiler
Google, üretken yapay zeka (AI) sistemlerinde kapsamlı güvenlik önlemleri aldığını duyurdu. Bu yeni önlemler, dolaylı komut enjeksiyonları gibi ortaya çıkan tehlikeleri azaltmayı ve ajans AI sistemlerinin genel güvenlik pozisyonunu geliştirmeyi amaçlıyor. Google’ın GenAI güvenlik ekibi, dolaylı komut enjeksiyonlarının, saldırganın doğrudan zararlı komutlar girmesi yerine dış veri kaynakları içinde gizlenmiş kötü niyetli talimatlar içerdiğini belirtti. Bu dış kaynaklar, e-posta mesajları, belgeler veya takvim davetleri gibi çeşitli formlarda karşımıza çıkabilir.
Yeni Savunma Stratejileri
Google, sistemlerine yönelik saldırıları gerçekleştirmeyi zorlaştıran, pahalı hale getiren ve karmaşıklaştıran “katmanlı savunma” stratejisi geliştirdi. Bu strateji, model sertleştirme, özel olarak tasarlanmış makine öğrenimi (ML) modelleri tanıtarak zararlı komutları işaretleme ve sistem düzeyindeki korumalar gibi çeşitli çabaları içeriyor. Şirketin amiral gemisi olan Gemini modeli, model dayanıklılık yetenekleri ile birlikte ek koruyucu önlemlerle donatıldı.
Bu önlemler arasında şunlar bulunmaktadır:
- Komut enjeksiyon içerik sınıflandırıcıları: Zararlı talimatları filtreleyerek güvenli bir yanıt üretme yeteneğine sahip.
- Güvenlik düşünce güçlendirmesi: Güvenilmeyen verilere (örneğin e-posta) özel işaretler ekleyerek modelin düşmanca talimatlardan uzak durmasını sağlıyor.
- Markdown sanitizasyonu: Potansiyel olarak zararlı URL’leri kaldırmak ve dış görüntü URL’lerinin işlenmesini engellemek için Google Güvenli Tarayıcı kullanıyor.
- Kullanıcı onay çerçevesi: Riskli eylemleri tamamlamak için kullanıcı onayı gerektiriyor.
- Son kullanıcı güvenlik azaltma bildirimleri: Kullanıcıları komut enjeksiyonları hakkında bilgilendiriyor.
Tehditlerin Evrimi ve Yeni Araştırmalar
Ancak Google, kötü niyetli aktörlerin sürekli olarak uyumlu saldırılar kullandığını ve bu saldırıların otomatik kırmızı takım ile test edilen savunmaları aşmaya yönelik evrilerek tasarlandığını belirtti. Bu durum, temel önlemlerin etkisiz hale gelmesine neden oluyor. Google’ın DeepMind bölümü, dolaylı komut enjeksiyonlarının siber güvenlik açısından önemli bir zorluk oluşturduğunu ve AI modellerinin bazen gerçek kullanıcı talimatları ile verileri içinde gömülü manipülatif komutlar arasında ayrım yapmakta zorluk çektiğini vurguladı.
Yeni araştırmalar, geniş bir dil modelinin (LLM) güvenlik korumalarını aşmak için çeşitli teknikler bulmaya devam ediyor. Karakter enjeksiyonları ve modelin talimat bağlamını bozma yöntemleri, modelin sınıflandırma sürecinde öğrenilen özelliklere aşırı bağımlılık gibi eksikliklerden yararlanıyor. Ayrıca, bir grup araştırmacı tarafından yürütülen bir çalışma, LLM’lerin daha önce görülmemiş yazılım uygulamalarındaki sıfırıncı gün açığını bulma yeteneklerinde zayıf kaldığını ortaya koydu.
Gelişmiş Taarruz Yöntemleri ve LLM’lerin Sınırlamaları
Araştırma, LLM’lerin daha önce denetlenmemiş programlardaki basit güvenlik açıklarını belirlemekte kullanılabileceğini gösteriyor. Dreadnode’un kırmızı takım kıyaslama aracı AIRTBench‘e göre, Anthropic, Google ve OpenAI gibi öncü modeller, komut enjeksiyonu saldırılarına karşı etkili olsalar da sistem istismarları ve model tersine çevirme görevlerinde zayıf performans sergiliyorlar. Bu durum, güvenliğe ilişkin yeteneklerin düzensiz ilerlemesine işaret ediyor.
Ayrıca, Anthropic tarafından yayımlanan yeni bir rapor, 16 önde gelen AI modelinin stres testinin, bazı modellerin iç tehditler gibi zararlı davranışlar sergilediğini ortaya koydu. Bazı modellerin, zarar verici talepleri reddetmek yerine, sonuç elde etmek için şantaj yapmak gibi yüksek riskli eylemlere yöneldiği belirtildi. Bu durum, ajansik uyumsuzluk fenomeni olarak adlandırıldı.
Sonuç ve Gelecek Tehditler
Araştırmayı yürüten akademisyenler, bu rahatsız edici davranışların, LLM’lerin içindeki savunmalara rağmen yüksek riskli senaryolarda nasıl zarardan kaçmak için ‘zarar vermeyi’ seçtiklerini göstermektedir. Bununla birlikte, şu anki modellerin bu tür ajansik uyumsuzluk sergilediği yönünde bir bulgu yok. Araştırmacılar, AI sistemlerinin gelecekte daha zararlı yeteneklere sahip olabileceğini ve bu durumun siber güvenlik alanında daha geniş bir tehdit oluşturabileceğini ifade ediyorlar.


