ChatGPT Hex Kodu Kullanılarak Yönetilebilir

Yeni bir hızlı enjeksiyon tekniği, herkesin OpenAI’nin en gelişmiş dil öğrenme modelindeki (LLM) güvenlik korkuluklarını atlamasına olanak tanıyabilir.

13 Mayıs’ta piyasaya sürülen GPT-4o, önceki modellerin tümünden daha hızlı, daha verimli ve daha çok işlevlidir. SohbetGPT. Düzinelerce dilde çok sayıda farklı giriş verisi biçimini işleyebilir ve ardından milisaniyeler içinde yanıt verebilir. Gerçek zamanlı görüşmelere katılabilir, canlı kamera yayınlarını analiz edebilir ve kullanıcılarla yapılan uzun görüşmelerde bağlamın anlaşılmasını sağlayabilir. Kullanıcı tarafından oluşturulan içerik yönetimi söz konusu olduğunda GPT-4o bazı yönlerden hâlâ eskidir.

Mozilla’daki üretken yapay zeka (GenAI) hata ödül programları yöneticisi Marco Figueroa, yeni bir raporda kötü aktörlerin GPT-4o’nun korkuluklarını atlarken gücünden nasıl yararlanabileceğini gösterdi. Anahtar aslında modelin dikkatini dağıtmaktır. Kötü niyetli talimatları alışılmışın dışında bir formatta kodlamakve bunları farklı adımlarla dağıtın.

Exploit Kodu Yazmak İçin ChatGPT’yi Kandırmak

Kötü niyetli suiistimali önlemek için GPT-4o, kullanıcı girişlerini kötü dil işaretleri, kötü niyetli talimatlar vb. açısından analiz eder.

Ancak günün sonunda Figueroa şöyle diyor: “Bunlar sadece kelime filtreleri. Tecrübelerime dayanarak bunu gördüm ve bu filtreleri nasıl aşacağımızı tam olarak biliyoruz.”

Örneğin şöyle diyor: “Bir şeyin yazılış şeklini değiştirebiliriz – onu belirli şekillerde parçalara ayırabiliriz – ve LLM bunu yorumlayabilir.” GPT-4o, tipik doğal dile uymayan bir yazım veya ifadeyle sunulursa, kötü niyetli bir talimatı reddetmeyebilir.

Çözmek bilgiyi sunmanın tam doğru yolu Ancak son teknoloji ürünü yapay zekayı taklit etmek için çok fazla yaratıcı beyin gücü gerekiyor. GPT-4o’nun içerik filtrelemesini aşmanın çok daha basit bir yöntemi olduğu ortaya çıktı: talimatları doğal dil dışında bir formatta kodlamak.

Bunu göstermek için Figueroa, ChatGPT’nin normalde yapmaması gereken bir şeyi yapmasını sağlamak amacıyla bir deney düzenledi: bir yazılım güvenlik açığı için yararlanma kodu yazmak. Docker’daki yetkilendirme eklentileri için bir bypass olan ve bu yaz Ortak Güvenlik Açığı Puanlama Sisteminde (CVSS) 10 üzerinden “kritik” 9,9 puan alan CVE-2024-41110’u seçti.

Modeli kandırmak için, kötü niyetli girişini onaltılık formatta kodladı ve kodunun çözülmesi için bir dizi talimat sağladı. GPT-4o bu girdiyi (A’dan F’ye kadar olan uzun bir rakam ve harf dizisi) aldı ve bu talimatları takip etti, sonuçta mesajın kodunu CVE-2024-41110’u araştırmak ve bunun için bir Python istismarı yazmak için bir talimat olarak çözdü. Programın bu talimat üzerinde yaygara koparma ihtimalini azaltmak için, biraz konuşma yaptı ve “istismar” yerine “3xploit” istedi.

Kaynak: Mozilla

Bir dakika içinde ChatGPT, tam olarak aynı olmasa da buna benzer çalışan bir güvenlik açığı oluşturdu: GitHub’da zaten yayınlanmış başka bir PoC. Daha sonra bonus olarak kodu kendisine karşı çalıştırmayı denedi. Figueroa, “Özellikle bunun uygulanmasını söyleyen herhangi bir talimat yoktu. Sadece çıktısını almak istedim. Neden devam ettiğini ve bunu yaptığını bile bilmiyordum” diyor.

GPT-4o’da Eksik Olan Ne?

Figueroa’ya göre sorun sadece GPT-4o’nun kod çözme sırasında dikkatinin dağılması değil, aynı zamanda ağaçlar yüzünden ormanın gözden kaçırılması da. diğer istem enjeksiyon tekniklerinde belgelenmiştir son zamanlarda.

Raporda, “Dil modeli talimatları adım adım takip edecek şekilde tasarlandı, ancak her bir adımın güvenliğini nihai hedefin daha geniş bağlamında değerlendirmek için derin bağlam farkındalığından yoksun” diye yazdı. Model, kendi başına hemen zararlı olarak görülmeyen her bir girdiyi analiz eder, ancak girdilerin toplamda ne ürettiğini analiz etmez. Durup birinci talimatın ikinci talimata nasıl uyduğunu düşünmek yerine, sadece ileri doğru hücum eder.

Figueroa’ya göre “Görevlerin bu bölümlere ayrılmış şekilde yürütülmesi, saldırganların, genel sonucun daha derinlemesine analizine gerek kalmadan talimatları takip ederek modelin verimliliğinden yararlanmasına olanak tanıyor.”

Durum böyleyse, ChatGPT’nin yalnızca kodlanmış bilgileri işleme biçimini iyileştirmesi gerekmeyecek, aynı zamanda farklı adımlara bölünmüş talimatlar etrafında daha geniş bir bağlam da geliştirmesi gerekecek.

Ancak Figueroa’ya göre OpenAI, programlarını geliştirirken güvenlik pahasına yeniliğe değer veriyor gibi görünüyor. “Bana göre umursamıyorlar. Sadece öyle hissettiriyor” diyor. Buna karşılık, eski OpenAI çalışanları tarafından kurulan bir başka önemli yapay zeka şirketi olan Anthropic’in modellerine karşı aynı jailbreak taktiklerini denemekte çok daha fazla sorun yaşadı. “Anthropic en güçlü güvenliğe sahip çünkü hem hızlı bir güvenlik duvarı hem de [for analyzing inputs] ve yanıt filtresi [for analyzing outputs]yani bu 10 kat daha zor hale geliyor” diye açıklıyor.

Dark Reading, bu hikaye hakkında OpenAI’den yorum bekliyor.

siber-1

Byteknomers

Exploit Kodu Yazmak İçin ChatGPT’yi Kandırmak

GPT-4o’da Eksik Olan Ne?

By teknomers

Benzer İçerikler

Hacimsel enerji yoğunluğu 820 Wh/l ve düşük sıcaklıklarda %90’a varan kapasite. SAIC’in ikinci nesil katı hal pillerinin seri üretimi 2026’da başlayacak

Söylenti: Kratos’un Seslendirme Sanatçısı Christopher Judge, Aralık Ayı ile İlgili God of War’la İlgili Bir Şey Anlatıyor

NIJISANJI ve Push!Color, Black Friday Yayını için İşbirliği Yapıyor

NIJISANJI ve Push!Color, Black Friday Yayını için İşbirliği Yapıyor

Bu Black Friday Soundbar Fırsatlarıyla Ev Sinema Sisteminizi Yükseltin

Netflix’in Anime Sızıntıları Üzerine Mahkeme Çağrısı Anlaşmazlığı

NYT Connections bugün – 25 Kasım Pazartesi için ipuçları ve cevaplar (oyun #533)

Apple’da bir yerlerde televizyon büyüklüğünde terk edilmiş bir iPad vardı ve Jobs buna bayılmıştı

Samsung, A serisine bir “amiral gemisi özelliği” getiriyor ancak bu, yeniden düşünmeniz için yeterli mi?

150$ indirimle birinci sınıf Sennheiser Momentum 4 bu Kara Cuma’nın olmazsa olmazı

Telefonlarda yapay zeka söz konusu olduğunda Samsung ve Apple iki kafanın birden daha iyi olduğunu söylüyor

Tabby’nin yıldızının etrafında halka

WEAVE spektrografı galaksi şokunun ikili doğasını ortaya çıkarıyor

Proba-3 uzayda milimetrik hassasiyet için lazer kullanacak

Bilim insanları Mars uzayında güneş enerjili yüksek enerjili protonların ilk tam enerji spektrumunu oluşturdular

İlginizi Çekebilir

Ubitium, CPU, GPU, DSP ve FPGA işlevlerini birleştiren ‘evrensel’ işlemcinin geliştirildiğini duyurdu – RISC-V destekli çipin iki yıl içinde piyasaya sürülmesi planlanıyor

Hacimsel enerji yoğunluğu 820 Wh/l ve düşük sıcaklıklarda %90’a varan kapasite. SAIC’in ikinci nesil katı hal pillerinin seri üretimi 2026’da başlayacak

Söylenti: Kratos’un Seslendirme Sanatçısı Christopher Judge, Aralık Ayı ile İlgili God of War’la İlgili Bir Şey Anlatıyor

Amazon AirTags Fiyatını Bir Kez Daha Düşürdü ve 4’lü Paket Seçeneğini Şiddetle Tavsiye Ediyoruz