Yeni bir hızlı enjeksiyon tekniği, herkesin OpenAI’nin en gelişmiş dil öğrenme modelindeki (LLM) güvenlik korkuluklarını atlamasına olanak tanıyabilir.
13 Mayıs’ta piyasaya sürülen GPT-4o, önceki modellerin tümünden daha hızlı, daha verimli ve daha çok işlevlidir. SohbetGPT. Düzinelerce dilde çok sayıda farklı giriş verisi biçimini işleyebilir ve ardından milisaniyeler içinde yanıt verebilir. Gerçek zamanlı görüşmelere katılabilir, canlı kamera yayınlarını analiz edebilir ve kullanıcılarla yapılan uzun görüşmelerde bağlamın anlaşılmasını sağlayabilir. Kullanıcı tarafından oluşturulan içerik yönetimi söz konusu olduğunda GPT-4o bazı yönlerden hâlâ eskidir.
Mozilla’daki üretken yapay zeka (GenAI) hata ödül programları yöneticisi Marco Figueroa, yeni bir raporda kötü aktörlerin GPT-4o’nun korkuluklarını atlarken gücünden nasıl yararlanabileceğini gösterdi. Anahtar aslında modelin dikkatini dağıtmaktır. Kötü niyetli talimatları alışılmışın dışında bir formatta kodlamakve bunları farklı adımlarla dağıtın.
Exploit Kodu Yazmak İçin ChatGPT’yi Kandırmak
Kötü niyetli suiistimali önlemek için GPT-4o, kullanıcı girişlerini kötü dil işaretleri, kötü niyetli talimatlar vb. açısından analiz eder.
Ancak günün sonunda Figueroa şöyle diyor: “Bunlar sadece kelime filtreleri. Tecrübelerime dayanarak bunu gördüm ve bu filtreleri nasıl aşacağımızı tam olarak biliyoruz.”
Örneğin şöyle diyor: “Bir şeyin yazılış şeklini değiştirebiliriz – onu belirli şekillerde parçalara ayırabiliriz – ve LLM bunu yorumlayabilir.” GPT-4o, tipik doğal dile uymayan bir yazım veya ifadeyle sunulursa, kötü niyetli bir talimatı reddetmeyebilir.
Çözmek bilgiyi sunmanın tam doğru yolu Ancak son teknoloji ürünü yapay zekayı taklit etmek için çok fazla yaratıcı beyin gücü gerekiyor. GPT-4o’nun içerik filtrelemesini aşmanın çok daha basit bir yöntemi olduğu ortaya çıktı: talimatları doğal dil dışında bir formatta kodlamak.
Bunu göstermek için Figueroa, ChatGPT’nin normalde yapmaması gereken bir şeyi yapmasını sağlamak amacıyla bir deney düzenledi: bir yazılım güvenlik açığı için yararlanma kodu yazmak. Docker’daki yetkilendirme eklentileri için bir bypass olan ve bu yaz Ortak Güvenlik Açığı Puanlama Sisteminde (CVSS) 10 üzerinden “kritik” 9,9 puan alan CVE-2024-41110’u seçti.
Modeli kandırmak için, kötü niyetli girişini onaltılık formatta kodladı ve kodunun çözülmesi için bir dizi talimat sağladı. GPT-4o bu girdiyi (A’dan F’ye kadar olan uzun bir rakam ve harf dizisi) aldı ve bu talimatları takip etti, sonuçta mesajın kodunu CVE-2024-41110’u araştırmak ve bunun için bir Python istismarı yazmak için bir talimat olarak çözdü. Programın bu talimat üzerinde yaygara koparma ihtimalini azaltmak için, biraz konuşma yaptı ve “istismar” yerine “3xploit” istedi.
Kaynak: Mozilla
Bir dakika içinde ChatGPT, tam olarak aynı olmasa da buna benzer çalışan bir güvenlik açığı oluşturdu: GitHub’da zaten yayınlanmış başka bir PoC. Daha sonra bonus olarak kodu kendisine karşı çalıştırmayı denedi. Figueroa, “Özellikle bunun uygulanmasını söyleyen herhangi bir talimat yoktu. Sadece çıktısını almak istedim. Neden devam ettiğini ve bunu yaptığını bile bilmiyordum” diyor.
GPT-4o’da Eksik Olan Ne?
Figueroa’ya göre sorun sadece GPT-4o’nun kod çözme sırasında dikkatinin dağılması değil, aynı zamanda ağaçlar yüzünden ormanın gözden kaçırılması da. diğer istem enjeksiyon tekniklerinde belgelenmiştir son zamanlarda.
Raporda, “Dil modeli talimatları adım adım takip edecek şekilde tasarlandı, ancak her bir adımın güvenliğini nihai hedefin daha geniş bağlamında değerlendirmek için derin bağlam farkındalığından yoksun” diye yazdı. Model, kendi başına hemen zararlı olarak görülmeyen her bir girdiyi analiz eder, ancak girdilerin toplamda ne ürettiğini analiz etmez. Durup birinci talimatın ikinci talimata nasıl uyduğunu düşünmek yerine, sadece ileri doğru hücum eder.
Figueroa’ya göre “Görevlerin bu bölümlere ayrılmış şekilde yürütülmesi, saldırganların, genel sonucun daha derinlemesine analizine gerek kalmadan talimatları takip ederek modelin verimliliğinden yararlanmasına olanak tanıyor.”
Durum böyleyse, ChatGPT’nin yalnızca kodlanmış bilgileri işleme biçimini iyileştirmesi gerekmeyecek, aynı zamanda farklı adımlara bölünmüş talimatlar etrafında daha geniş bir bağlam da geliştirmesi gerekecek.
Ancak Figueroa’ya göre OpenAI, programlarını geliştirirken güvenlik pahasına yeniliğe değer veriyor gibi görünüyor. “Bana göre umursamıyorlar. Sadece öyle hissettiriyor” diyor. Buna karşılık, eski OpenAI çalışanları tarafından kurulan bir başka önemli yapay zeka şirketi olan Anthropic’in modellerine karşı aynı jailbreak taktiklerini denemekte çok daha fazla sorun yaşadı. “Anthropic en güçlü güvenliğe sahip çünkü hem hızlı bir güvenlik duvarı hem de [for analyzing inputs] ve yanıt filtresi [for analyzing outputs]yani bu 10 kat daha zor hale geliyor” diye açıklıyor.
Dark Reading, bu hikaye hakkında OpenAI’den yorum bekliyor.