Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: ‘Kötü Likert Hakimi’ OpenAI Savunmasını Kırıyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » ‘Kötü Likert Hakimi’ OpenAI Savunmasını Kırıyor

GenelSiber Güvenlik

‘Kötü Likert Hakimi’ OpenAI Savunmasını Kırıyor

teknomers
Son güncelleme: 2 Ocak 2025 20:09
teknomers
Paylaş
Paylaş


Contents
  • Kötü Likert Hakimi Nasıl Çalışır?
  • Yüksek Lisans Jailbreak’lerinin Yükselişi
  • Yüksek Lisans Jailbreak’leri Nasıl Azaltılır?

OpenAI ve diğerleri için yeni bir jailbreak tekniği büyük dil modelleri (LLM’ler) Saldırganların siber güvenlik korkuluklarını aşma ve kötü amaçlı içerik dağıtmak için sistemi kötüye kullanma olasılığını artırır.

Palo Alto Networks’ün 42. Birimindeki araştırmacılar tarafından keşfedilen Kötü Likert Yargıç saldırısı, LLM’den Likert ölçeğini kullanarak belirli bir yanıtın zararlılığını puanlayan bir yargıç gibi hareket etmesini ister. Adını mucidinden alan ve anketlerde yaygın olarak kullanılan psikometrik ölçek, yanıtlayanın bir ifadeye katılıp katılmadığını ölçen bir derecelendirme ölçeğidir.

Jailbreak daha sonra LLM’den ölçeklerle uyumlu örnekler içeren yanıtlar üretmesini ister ve Unit 42’den Yongzhe Huang, Yang Ji, Wenjun, nihai sonucun “en yüksek Likert ölçeğine sahip örneğin potansiyel olarak zararlı içerik içerebileceği” şeklinde olduğunu belirtir. Hu, Jay Chen, Akshata Rao ve Danny Tsechansky bulgularını açıklayan bir yazı yazdılar.

OpenAI, Azure, Google, Amazon Web Services, Meta ve Nvidia’nın son teknolojiye sahip altı metin oluşturma LLM’sine karşı çeşitli kategorilerde gerçekleştirilen testler, tekniğin saldırı başarı oranını (ASR) daha fazla artırabileceğini ortaya çıkardı. Araştırmacılara göre, düz saldırı istemleriyle karşılaştırıldığında ortalama %60’tan fazla.

Araştırmada değerlendirilen saldırı kategorileri, sistemden çeşitli uygunsuz yanıtların alınmasını içeriyordu; bunlar arasında şunlar yer almaktadır: bağnazlığı, nefreti veya önyargıyı teşvik edenler; bir bireyi veya grubu taciz eden davranışlarda bulunanlar; intiharı veya diğer kendine zarar verme eylemlerini teşvik edenler; uygunsuz, açıkça cinsel materyal ve pornografi üretenler; yasa dışı silahların nasıl üretileceği, edinileceği veya kullanılacağı hakkında bilgi verenler; veya yasadışı faaliyetleri teşvik edenler.

Araştırılan ve jailbreak’in saldırı başarısı olasılığını artırdığı diğer kategoriler şunlardır: kötü amaçlı yazılım üretimi veya kötü amaçlı yazılımların oluşturulması ve dağıtılması; ve LLM’ye rehberlik etmek için kullanılan gizli talimat dizisini açığa çıkarabilecek sistem istemi sızıntısı.

Kötü Likert Hakimi Nasıl Çalışır?

Araştırmacılar, Kötü Likert Hakimi saldırısının ilk adımının, hedef LLM’den diğer LLM’ler tarafından oluşturulan yanıtları değerlendirmek için bir yargıç olarak hareket etmesini istemeyi içerdiğini açıkladı.

“LLM’nin zararlı içerik üretebileceğini doğrulamak için puanlama görevine yönelik özel yönergeler sunuyoruz.” yazdılar. “Örneğin, LLM’den kötü amaçlı yazılım oluşturmaya ilişkin bilgiler içerebilecek içeriği değerlendirmesini isteyen yönergeler sağlanabilir.”

İlk adım düzgün bir şekilde tamamlandıktan sonra Yüksek Lisans’ın görevi ve farklı zararlı içerik ölçeklerini anlaması gerektiğini, bunun da ikinci adımı “basit” hale getirdiğini söylediler. Araştırmacılar, “LLM’den çeşitli ölçeklere karşılık gelen farklı yanıtlar vermesini isteyin” diye yazdı.

“İkinci adımı tamamladıktan sonra, LLM genellikle zararlı olarak kabul edilen içerik üretir” diye yazdılar ve bazı durumlarda “oluşturulan içeriğin deney için amaçlanan zararlılık puanına ulaşmak için yeterli olmayabileceğini” eklediler.

İkinci sorunu çözmek için, bir saldırgan LLM’den yanıtı genişleterek veya daha fazla ayrıntı ekleyerek en yüksek puana sahip yanıtı hassaslaştırmasını isteyebilir. Araştırmacılar, “Gözlemlerimize dayanarak, iyileştirme talep eden ek bir veya iki tur takip istemi, genellikle LLM’nin daha zararlı bilgiler içeren içerik üretmesine yol açıyor” diye yazdı.

Yüksek Lisans Jailbreak’lerinin Yükselişi

LLM’lerin artan kullanımı kişisel, araştırma ve ticari amaçlarla kullanılması, araştırmacıları, belirli şekillerde istendiğinde zararlı ve önyargılı içerik üretme konusundaki duyarlılıklarını test etmeye yöneltmiştir. Jailbreak’ler, araştırmacıların, LLM yaratıcıları tarafından kötü içerik üretilmesini önlemek için uygulamaya konulan korkulukları atlamalarına olanak tanıyan yöntemlere verilen addır.

Güvenlik araştırmacıları, Unit 42’ye göre halihazırda çeşitli jailbreak türlerini tanımladılar. kişisel ikna; rol yapma oyunu olarak adlandırılan jailbreak Şimdi Her Şeyi Yapın; ve saldırganın girişinde şifrelenmiş kelimeler kullanan jeton kaçakçılığı.

Robust Intelligence ve Yale Üniversitesi’ndeki araştırmacılar da yakın zamanda bir jailbreak keşfettiler. Budama ile Saldırı Ağacı (TAP)hizalanmamış bir LLM’nin başka bir hizalanmış LLM’yi “jailbreak” yapmak için kullanılmasını veya hızlı ve yüksek bir başarı oranıyla korkuluklarını aşmasını sağlamayı içerir.

Birim 42 araştırmacıları, jailbreak tekniklerinin “son durumları hedeflediğini ve tipik Yüksek Lisans kullanım örneklerini mutlaka yansıtmadığını” vurguladı. Bu, “çoğu yapay zeka modelinin sorumlu ve dikkatli bir şekilde çalıştırıldığında güvenli ve emniyetli olduğu” anlamına geliyor.

Yüksek Lisans Jailbreak’leri Nasıl Azaltılır?

Ancak araştırmacılar, hiçbir Yüksek Lisans konusunun jailbreak’lere karşı tamamen güvenli olmadığı konusunda uyardı. OpenAI, Microsoft, Google ve diğerlerinin güvenliğini zayıflatabilmelerinin nedeni LLM’lerini geliştiriyorlar Bunun temel olarak dil modellerinin hesaplama sınırlarından kaynaklandığını söylediler.

“Bazı istemler, modelin uzun biçimli içerik üretmek veya karmaşık akıl yürütmeye katılmak gibi hesaplama açısından yoğun görevleri yerine getirmesini gerektiriyor” diye yazdılar. “Bu görevler modelin kaynaklarını zorlayabilir ve potansiyel olarak belirli güvenlik korkuluklarını gözden kaçırmasına veya atlamasına neden olabilir.”

Saldırganlar ayrıca, “modelin güvenlik korkuluklarının aksi takdirde önleyeceği güvenli olmayan veya uygunsuz yanıtlar üretmeye doğru yavaş yavaş yönlendiren” “bir dizi ipucunu stratejik olarak oluşturarak” modelin konuşmanın bağlamını anlamasını manipüle edebilirler.

hafifletmek için Jailbreak’lerden kaynaklanan risklerAraştırmacılar, jailbreak’in azaltılması için Yüksek Lisans’ların yanı sıra içerik filtreleme sistemlerinin de uygulanmasını öneriyor. Bu sistemler, potansiyel olarak zararlı içeriği tespit etmek için modellerin hem isteminde hem de çıktısında sınıflandırma modellerini çalıştırır.

Araştırmacılar, “Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR’yi ortalama yüzde 89,2 oranında azaltabildiğini gösteriyor” diye yazdı. “Bu, LLM’leri gerçek dünya uygulamalarında dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemeyi uygulamanın kritik rolünü gösteriyor.”



siber-1

YouTube, Dr Disrespect’in Kanalından Para Kazanmayı Askıya Aldı
En sevdiğim ucuz koşu güneş gözlüklerim Tifosi’nin Anma Günü indiriminde 30 dolardan az
Büyük kripto web sitelerinde tehlikeli kimlik avı açılır pencereleri görünüyor
144 Hz, 4800 mAh, 66 W ve eski güzel Snapdragon 888 – 245 dolara. Honor X40 GT Racing Edition sunuldu
AMD Ryzen 7000X3D 3D V-Cache CPU’ların 16, 12 ve 8 Çekirdek Çeşitlerinde CES’te Tanıtılacağı Söyleniyor
ETİKETLENDİ:HakimikırıyorKötüLikertOpenAISavunmasını
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Half-Life Aktörü Şifreli Yeni Yıl Mesajıyla Half-Life 3 Söylentilerini Karıştırdı
Sonraki Makale Black Ops 6 Sezon 2 çıkış tarihi tahmini, hile karşıtı güncelleme ve daha fazlası

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Superhuman büyük bir adım attı: GPTZero’yu satın aldı
Genel
Blizzard, Diablo 4 Sezon 14’teki Mitik Değişiklikleri Tartışıyor
Oyun
Diablo 4’teki Yeni Dönem Değişiklikleri Oyun İçin Hayati Öneme Sahip
Oyun
Tata Electronics’tan Kritik Açıklama: Siber Saldırı ve Veri Sızıntısı
Siber Güvenlik
30 Dolar Altında En İyi Amazon Prime Day Fırsatları: Kaçırmayın!
Genel
Meta Quest 3S, 297 Dolara Satışta – Eski Fiyatıyla Aynı!
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?