Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik ‘Aldatıcı Zevk’ Yöntemini Ortaya Çıkardı
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik ‘Aldatıcı Zevk’ Yöntemini Ortaya Çıkardı

GenelSiber Güvenlik

Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik ‘Aldatıcı Zevk’ Yöntemini Ortaya Çıkardı

teknomers
Son güncelleme: 24 Ekim 2024 09:24
teknomers
Paylaş
Paylaş


23 Ekim 2024Ravie LakshmananYapay Zeka / Güvenlik Açığı

Siber güvenlik araştırmacıları, etkileşimli bir konuşma sırasında zararsız dil modellerinin arasına istenmeyen bir talimatı gizlice sızdırarak büyük dil modellerini (LLM’ler) jailbreak yapmak için kullanılabilecek yeni bir rakip tekniğe ışık tuttu.

Yaklaşım, Palo Alto Networks Unit 42 tarafından Deceptive Delight olarak kodlandı ve bu yaklaşım onu ​​hem basit hem de etkili olarak tanımladı ve üç etkileşim turunda %64,6 ortalama saldırı başarı oranına (ASR) ulaştı.

Unit 42’den Jay Chen ve Royce Lu, “Aldatıcı Delight, büyük dil modellerini (LLM) etkileşimli bir sohbete dahil eden, güvenlik korkuluklarını yavaş yavaş aşarak onları güvenli olmayan veya zararlı içerik üretmeye yönlendiren çok dönüşlü bir tekniktir” dedi.

Aynı zamanda, modeli kademeli olarak zararlı çıktılar üretmeye yönlendirmek yerine, güvenli olmayan veya kısıtlanmış konuların zararsız talimatlar arasına sıkıştırıldığı Crescendo gibi çok turlu jailbreak (diğer adıyla çok atışlı jailbreak) yöntemlerinden biraz farklıdır.

Son araştırmalar aynı zamanda Yüksek Lisans’ın güvenlik ağını aşabilen bir kara kutu jailbreak yöntemi olan Bağlam Füzyon Saldırısı (CFA) olarak adlandırılan yöntemi de araştırdı.

Bir grup araştırmacı, “Bu yöntem yaklaşımı, anahtar terimlerin hedeften filtrelenmesini ve çıkarılmasını, bu terimler etrafında bağlamsal senaryolar oluşturulmasını, hedefin senaryolara dinamik olarak entegre edilmesini, hedef içindeki kötü amaçlı anahtar terimlerin değiştirilmesini ve böylece doğrudan kötü niyetli niyetin gizlenmesini içerir.” Xidian Üniversitesi ve 360 ​​Yapay Zeka Güvenlik Laboratuvarı’ndan söz konusu Ağustos 2024’te yayınlanan bir makalede.

Deceptive Delight, iki konuşma sırası içinde bağlamı manipüle ederek ve böylece yanlışlıkla güvenli olmayan içeriği ortaya çıkaracak şekilde kandırarak Yüksek Lisans’ın doğasında olan zayıflıklardan yararlanmak üzere tasarlanmıştır. Üçüncü bir dönüşün eklenmesi, zararlı çıktının ciddiyetini ve ayrıntısını artırma etkisine sahiptir.

Bu, modelin tepkiler üretirken bağlamsal farkındalığı işleme ve koruma kapasitesini ifade eden sınırlı dikkat süresinden faydalanmayı içerir.

Araştırmacılar, “LLM’ler, zararsız içeriği potansiyel olarak tehlikeli veya zararlı materyalle harmanlayan yönlendirmelerle karşılaştıklarında, sınırlı dikkat süreleri, tüm bağlamı tutarlı bir şekilde değerlendirmeyi zorlaştırıyor” diye açıkladı.

“Karmaşık veya uzun pasajlarda model, güvenli olmayan yönleri gözden kaçırırken veya yanlış yorumlarken iyi huylu yönlere öncelik verebilir. Bu, bir kişinin dikkati bölünmüşse, önemli ancak incelikli uyarıları ayrıntılı bir raporda nasıl gözden kaçırabileceğini yansıtıyor.”

Birim 42 bunu söyledi test edildi Nefret, taciz, kendine zarar verme, cinsellik, şiddet ve tehlikeli gibi altı geniş kategoride 40 güvensiz konuyu kullanan sekiz yapay zeka modeli, şiddet kategorisindeki güvenli olmayan konuların çoğu modelde en yüksek ASR’ye sahip olma eğiliminde olduğunu buldu.

Bunun da ötesinde, ortalama Zararlılık Puanının (HS) ve Kalite Puanının (QS) ikinci virajdan üçüncü viraja sırasıyla %21 ve %33 oranında arttığı ve üçüncü turun da tüm zamanların en yüksek ASR’sine ulaştığı görüldü. modeller.

Aldatıcı Zevk’in oluşturduğu riski azaltmak için sağlam bir yaklaşımın benimsenmesi önerilir. içerik filtreleme stratejisiLLM’lerin dayanıklılığını artırmak için hızlı mühendislik kullanın ve kabul edilebilir girdi ve çıktı aralığını açıkça tanımlayın.

Araştırmacılar, “Bu bulgular, yapay zekanın doğası gereği güvensiz veya güvensiz olduğunun kanıtı olarak görülmemelidir” dedi. “Daha ziyade, bu modellerin kullanışlılığını ve esnekliğini korurken jailbreak risklerini azaltmak için çok katmanlı savunma stratejilerine duyulan ihtiyacı vurguluyorlar.”

Yeni çalışmalar, üretken yapay zeka modellerinin, geliştiricilere var olmayan paketler önerebilecekleri bir tür “paket karışıklığı”na açık olduğunu gösterdiğinden, Yüksek Lisans’ların jailbreak ve halüsinasyonlara karşı tamamen bağışık olması pek olası değildir.

Bu, kötü niyetli aktörlerin halüsinasyonlu paketler oluşturması, bunları kötü amaçlı yazılımla tohumlaması ve açık kaynak depolarına itmesi durumunda yazılım tedarik zinciri saldırılarını körüklemek gibi talihsiz bir yan etkiye neden olabilir.

Araştırmacılar, “Halüsinasyonlu paketlerin ortalama yüzdesi, ticari modeller için en az %5,2 ve açık kaynaklı modeller için %21,7’dir; halüsinasyonlu paket adlarının şaşırtıcı 205.474 benzersiz örneği de dahil olmak üzere, bu durum, bu tehdidin ciddiyetini ve yaygınlığını daha da vurgulamaktadır.” söz konusu.



siber-2

Sonic Superstars 1.001 Güncellemesi 11 Aralık’ta Basıyor
İlk “tank” Rusya’da satışa başlamaya hazır. Tank 300 arazi aracı Araç Tip Onayı aldı
Avowed – Antik Arrowhead Hazine Haritası Konumu
Kurumsal Bulut Büyüdükçe Zorluklar da Büyüyor
Samsung’un Şirketin ‘Space Zoom’ Teknolojisini Kullandığı Ay Çekimleri, Ekstra Ayrıntılar Eklemek İçin Bir Yapay Zeka Modeli Kullandıkları İçin Sahtedir
ETİKETLENDİ:ağ güvenliğialdatıcıAraştırmacılarbilgi Güvenliğibilgisayar GüvenliğiÇıkardıfidye yazılımı kötü amaçlı yazılımhack haberlerihacker haberleriJailbreakmodellerinenasıl hacklenirortayasiber güncellemelersiber güvenlik güncellemelerisiber güvenlik haberleriSiber güvenlik haberleri bugünSiber Haberlersiber saldırılarveri ihlaliYapayyazılım güvenlik açığıYönelikYönteminiZekaZevk
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Son Dans İnişi Pek Sürdürmüyor
Sonraki Makale Oppo Reno 13 Pro’nun sızdırılan özellikleri birden fazla yükseltmeyi ortaya koyuyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Başlangıç seviyesindeki kullanıcılar için Anycubic Photon P1, %36 indirimde!
Donanım
Kritik: Yeni Prinz Eugen Ransomware, Son Dosyaları Hedefliyor
Siber Güvenlik
Dijital Dönüşüm: Laravel ile Kediri Belediyesi BPPKAD için NPWPD Sistemi Geliştirme Deneyimi
Yazılım
1440p uyumlu oyun PC’si: 32GB DDR5 RAM ile 1,199$’a al!
Donanım
iOS 27’nin Bilmeniz Gereken Tüm Yeni Özellikleri
Genel
Dota 2 Geliştiricileri Karanlık Karnaval İçin Verileri Sorguladı
Oyun
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?