Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Yeni Yapay Zeka Jailbreak Yöntemi ‘Kötü Likert Hakimi’ Saldırı Başarı Oranlarını %60’ın Üzerinde Artırıyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Yeni Yapay Zeka Jailbreak Yöntemi ‘Kötü Likert Hakimi’ Saldırı Başarı Oranlarını %60’ın Üzerinde Artırıyor

GenelSiber Güvenlik

Yeni Yapay Zeka Jailbreak Yöntemi ‘Kötü Likert Hakimi’ Saldırı Başarı Oranlarını %60’ın Üzerinde Artırıyor

teknomers
Son güncelleme: 3 Ocak 2025 15:57
teknomers
Paylaş
Paylaş


03 Ocak 2025Ravie LakshmananMakine Öğrenimi / Güvenlik Açığı

Siber güvenlik araştırmacıları, büyük dil modelinin (LLM) güvenlik korkuluklarını aşmak ve potansiyel olarak zararlı veya kötü niyetli yanıtlar üretmek için kullanılabilecek yeni bir jailbreak tekniğine ışık tuttu.

Çok dönüşlü (diğer adıyla çok atışlı) saldırı stratejisinin kod adı verilmiştir Kötü Likert Hakimi Palo Alto Networks Birim 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından.

“Teknik, hedef LLM’den belirli bir yanıtın zararlılığını puanlayan bir yargıç gibi hareket etmesini ister. Likert ölçeğiBirim 42 ekibi, yanıtlayanın bir ifadeye katılıp katılmadığını ölçen bir derecelendirme ölçeğidir. söz konusu.

“Daha sonra LLM’den ölçeklerle uyumlu örnekleri içeren yanıtlar üretmesini ister. En yüksek Likert ölçeğine sahip örnek, potansiyel olarak zararlı içerik içerebilir.”

Son yıllarda yapay zekanın popülaritesindeki patlama, aynı zamanda, bir makine öğrenimi modelinin devreye girmesine neden olmak için açıkça tasarlanmış olan, istem enjeksiyonu adı verilen yeni bir güvenlik açıkları sınıfına da yol açtı. amaçlanan davranışını görmezden gelin özel hazırlanmış talimatları (yani istemleri) ileterek.

Hızlı enjeksiyonun belirli bir türü, adı verilen bir saldırı yöntemidir. çok atışlı jailbreakLLM’nin uzun süreden yararlanan bağlam penceresi ve LLM’yi, dahili korumalarını tetiklemeden, kötü niyetli bir yanıt üretmeye yavaş yavaş iten bir dizi istem oluşturmaya dikkat edin. Bu tekniğin bazı örnekleri Crescendo ve Deceptive Delight’ı içerir.

Ünite 42 tarafından gösterilen en son yaklaşım, Likert psikometrik ölçeğini kullanarak belirli bir yanıtın zararlılığını değerlendirmek için LLM’nin bir yargıç olarak kullanılmasını ve ardından modelden çeşitli puanlara karşılık gelen farklı yanıtlar sağlamasını istemeyi gerektirir.

Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA’nın son teknolojiye sahip altı metin oluşturma LLM’sine karşı geniş bir kategori yelpazesinde gerçekleştirilen testlerde, tekniğin saldırı başarı oranını (ASR) artırabildiği ortaya çıktı. ortalama olarak düz saldırı istemlerine kıyasla %60’tan fazla.

Bu kategoriler arasında nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasa dışı faaliyetler, kötü amaçlı yazılım üretimi ve sistem istemi sızıntısı yer alıyor.

Araştırmacılar, “LLM’nin zararlı içerik anlayışından ve yanıtları değerlendirme yeteneğinden yararlanarak, bu teknik, modelin güvenlik korkuluklarını başarıyla aşma şansını önemli ölçüde artırabilir” dedi.

“Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR’yi ortalama yüzde 89,2 puan azaltabildiğini gösteriyor. Bu, LLM’leri gerçek dünya uygulamalarında dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemeyi uygulamanın kritik rolünü gösteriyor.”

Gelişme, The Guardian’ın bir raporunun OpenAI’nin ChatGPT arama aracı gizli içerik barındıran web sayfalarını özetlemesi istenerek tamamen yanıltıcı özetler oluşturacak şekilde aldatılabilir.

Birleşik Krallık gazetesi, “Bu teknikler, örneğin aynı sayfadaki olumsuz incelemelere rağmen ChatGPT’nin bir ürüne ilişkin olumlu değerlendirme vermesine neden olmak için kötü niyetli olarak kullanılabilir.” söz konusu.

“Gizli metnin üçüncü taraflarca talimat olmadan basit bir şekilde dahil edilmesi, olumlu bir değerlendirme sağlamak için de kullanılabilir; bir test, ChatGPT tarafından döndürülen özeti etkileyen son derece olumlu sahte incelemeleri içerir.”



siber-2

Simülasyonlu AMD Ryzen 7 7800X3D CPU Karşılaştırmaları, Oyuncular İçin Neden Ryzen 9 7950X3D ve 7900X3D’den Daha İyi Bir Teklif Olduğunu Gösteriyor
MacBook Air 2022: Yeni tasarım, M2 çip ve daha fazlası
Apple, Mac’ler İçin Bu Yılın Sonlarında Piyasaya Sürülmesi Planlanan Yeni Yapay Zeka Odaklı M4 Çipleri Üzerinde Çalışıyor
GeForce RTX 4070 Ti Super ve GeForce RTX 4080 Super böyle görünüyor. Gigabyte ve Palit’in ekran kartlarının ilk görselleri
Nasıl Daha Bkz Ama Geliştirilmiş Tehdit Görünürlüğü ile Az Yanıt Vermeye
ETİKETLENDİ:60ınağ güvenliğiArtırıyorbaşarıbilgi Güvenliğibilgisayar Güvenliğifidye yazılımı kötü amaçlı yazılımhack haberlerihacker haberleriHakimiJailbreakKötüLikertnasıl hacklenirOranlarınısaldırısiber güncellemelersiber güvenlik güncellemelerisiber güvenlik haberleriSiber güvenlik haberleri bugünSiber Haberlersiber saldırılarüzerindeveri ihlaliYapayyazılım güvenlik açığıYeniYöntemiZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Apple Fitness Plus ve Strava yeni bir entegrasyonla iş birliği yapıyor
Sonraki Makale OnePlus 13 ve OnePlus 13R Resmi Manyetik Kılıfları 7 Ocak Lansmanı Öncesinde Ortaya Çıktı

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Apple, Uygun Fiyatlı AI ile Küçük Geliştiricileri Çekmeyi Hedefliyor
Genel
Apple’ın yeni ebeveyn denetimleri, başını beladan kurtarmak için mi?
Liste
Acil: SoFi, Hong Kong İkincilinde Üçüncü Taraf Veri İhlalini Açıkladı
Siber Güvenlik
OpenAI, SpaceX ve Anthropic’ten Sonra Gizli IPO Başvurusunda Bulundu!
Genel
Anthropic’ın ardından OpenAI gizli olarak IPO başvurusunda bulundu
Yapay Zeka
Apple, WWDC’de macOS 27 ile Siri’yi geliştiriyor: Yeni sıvı cam ve AI stratejisi
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?