OpenAI ve Atlas: Yapay Zeka Güvenliğinde Yeni Zorluklar
OpenAI, Atlas AI tarayıcısını siber saldırılara karşı güçlendirmeye çalışırken, web sayfalarında veya e-postalarda gizlenmiş kötü niyetli talimatlarla AI ajanlarını manipüle eden bir saldırı türü olan “prompt injection” riskinin kısa vadede ortadan kalkmayacağını kabul ediyor. Bu durum, AI ajanlarının açık web üzerinde ne kadar güvenli bir şekilde çalışabileceği konusunda pek çok soruyu gündeme getiriyor.
Prompt Injection: Çözülmesi Zor Bir Sorun
OpenAI, “Prompt injection, internet üzerindeki dolandırıcılıklar ve sosyal mühendislik gibi, asla tamamen ‘çözülmeyecek’ bir sorun” şeklinde bir açıklamada bulundu. Şirket, Atlas’ın güvenliğini artırmaya yönelik bir blog yazısında, “agent mode” özelliğinin ChatGPT Atlas’taki güvenlik tehdit yüzeyini artırdığını belirtti.
OpenAI, Ekim ayında ChatGPT Atlas tarayıcısını piyasaya sürdüğünde, güvenlik araştırmacıları hemen bazı demolar yayınlayarak, Google Dokümanlar’da birkaç kelime yazarak tarayıcının davranışını değiştirebileceğini gösterdi. Aynı gün, Brave, AI destekli tarayıcılar için sistematik bir zorluk olan dolaylı prompt injection konusunu ele alan bir blog yazısı yayınladı.
Uluslararası Uyarılar ve Güvenlik Stratejileri
OpenAI’nin yanı sıra, Birleşik Krallık’ın Ulusal Siber Güvenlik Merkezi de, generatif AI uygulamalarına yönelik prompt injection saldırılarının “tamamen giderilemeyeceği” uyarısında bulundu. Bu tür saldırılar, web sitelerinin veri ihlallerine maruz kalma riskini artırıyor. Kurum, siber uzmanlara saldırıların “durdurulması” yerine riskleri azaltma ve etkilerini minimize etme konusunda tavsiyelerde bulundu.
OpenAI, prompt injection’ı uzun vadeli bir AI güvenliği sorunu olarak gördüğünü belirtirken, şirket, bu güvenlik tehdidine karşı sürekli olarak savunmalarını güçlendirmek zorunda olduklarını ifade etti.
Proaktif Yaklaşımlar ve Oto-Test Edici Sistemler
Şirket, bu zorluğun üstesinden gelmek için “proaktif, hızlı yanıt döngüsü” benimsediklerini ve bu yaklaşımın yeni saldırı stratejilerini içerde keşfetmeye yardımcı olduğunu ifade ediyor. Rakiplerinden Anthropic ve Google, sürekli olarak savunma katmanları oluşturarak prompt-based saldırılarla mücadele etmenin önemini vurguladı.
OpenAI ise, kendi geliştirdiği “LLM tabanlı otomatik saldırgan” ile farklı bir yaklaşım sergiliyor. Bu, OpenAI’nin, bir AI ajanına kötü niyetli talimatlar sokma yollarını aramak için takviye öğrenme kullanarak eğittiği bir bot. Bu bot, saldırıyı gerçek hayatta kullanmadan önce simülasyonda test ediyor; hedef AI’nın bu saldırıya nasıl tepki vereceğini anlamasını sağlıyor.
Simülasyon ile Öğrenme Süreci
Bu bot, hedef AI’nın iç mantığını inceleyerek saldırıyı tekrar tekrar uyarlayabiliyor. OpenAI, “Bu [takviye öğrenme] ile eğitilmiş saldırgan, bir ajanı sofistike, uzun vadeli zararlı iş akışlarını yürütmeye yönlendirebiliyor” ifadelerini kullandı. Ayrıca, insan red takımını veya dış raporları görmediğimiz yeni saldırı stratejileri de gözlemlendi.
Bir demoda, OpenAI’nin otomatik saldırganının kötü niyetli bir e-posta göndererek kullanıcının gelen kutusuna sızdığı gösterildi. AI ajanı, daha sonra gelen kutusunu tararken, e-posta içerisindeki gizli talimatları izleyip bir “otomatik yanıt” yazmak yerine istifa mesajı gönderdi. Ancak güvenlik güncellemesinin ardından, “agent mode” bu prompt injection girişimini başarıyla tespit etti ve kullanıcıya bildirdi.
Kullanıcı Güvenliği ve Öneriler
OpenAI, prompt injection’a karşı korumanın kesin bir çözüm olmadığını kabul etse de, büyük ölçekli testler ve hızlı yamanma döngüleri ile sistemlerini gerçek dünyadaki saldırılardan önce güçlendirdiklerini belirtiyor. OpenAI’den bir yetkili, Atlas’ın güvenlik güncellemesinin, başarılı saldırılarda ölçülebilir bir azalma sağlayıp sağlamadığını paylaşmaktan kaçındı, ancak lansmandan önce üçüncü taraflarla Atlas’ı güçlendirmek için çalıştıklarını söyledi.
Wiz siber güvenlik firmasından Rami McCarthy, takviye öğrenmenin, saldırgan davranışlarına sürekli olarak uyum sağlamak için bir yol olduğunu, ancak bunun yalnızca resmin bir parçası olduğunu belirtti. McCarthy, AI sistemlerindeki riskleri “özerklik ile erişimin çarpımı” olarak düşünülebileceğini ifade etti.
“Agentic tarayıcılar, bu alanın zorlayıcı bir kısmında yer alıyor: orta düzeyde özerklik ile çok yüksek erişim. Mevcut önerilerin çoğu bu dengeyi yansıtıyor” dedi. OpenAI, kullanıcılara risklerini azaltmaları için öneriler sunuyor ve Atlas’ın mesaj yollamadan veya ödeme yapmadan önce kullanıcı onayı alacak şekilde eğitildiğini belirtiyor.
Ayrıca, kullanıcılara ajana spesifik talimatlar vermeleri tavsiye ediliyor. Kullanıcıların, ajana “gerekli olan her şeyi yapmasını” söylemeleri yerine, daha açık ve kısıtlayıcı talimatlar vermeleri gerektiği belirtiliyor. “Geniş bir yetki, kötü niyetli içeriğin ajana etki etmesini kolaylaştırır” ifadesi OpenAI tarafından vurgulanıyor.
Sonuç olarak, OpenAI kullanıcılarına prompt injection risklerine karşı korumanın öncelikli olduğunu belirtse de, McCarthy, riskli tarayıcılar için yatırım dönüşümüne ilişkin bazı şüpheciliği göz önünde bulunduruyor. “Günlük kullanım durumları için, agentic tarayıcılar henüz mevcut risk profilini haklı çıkaracak kadar değer sunmuyor” diyor. “Hassas verilere olan erişim, yüksek risk taşırken, aynı zamanda bu erişim onların güçlü olmasına neden oluyor. Bu denge gelişecek, ancak bugün bu trade-off hala çok gerçek.”


