Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik 'Aldatıcı Zevk' Yöntemini Ortaya Çıkardı - Dünyadan Güncel Teknoloji Haberleri

23 Ekim 2024Ravie LakshmananYapay Zeka / Güvenlik Açığı

Siber güvenlik araştırmacıları, etkileşimli bir konuşma sırasında zararsız dil modellerinin arasına istenmeyen bir talimatı gizlice sızdırarak büyük dil modellerini (LLM’ler) jailbreak yapmak için kullanılabilecek yeni bir rakip tekniğe ışık tuttu.

Yaklaşım, Palo Alto Networks Unit 42 tarafından Deceptive Delight olarak kodlandı ve bu yaklaşım onu hem basit hem de etkili olarak tanımladı ve üç etkileşim turunda %64,6 ortalama saldırı başarı oranına (ASR) ulaştı.

Unit 42’den Jay Chen ve Royce Lu, “Aldatıcı Delight, büyük dil modellerini (LLM) etkileşimli bir sohbete dahil eden, güvenlik korkuluklarını yavaş yavaş aşarak onları güvenli olmayan veya zararlı içerik üretmeye yönlendiren çok dönüşlü bir tekniktir” dedi.

Aynı zamanda, modeli kademeli olarak zararlı çıktılar üretmeye yönlendirmek yerine, güvenli olmayan veya kısıtlanmış konuların zararsız talimatlar arasına sıkıştırıldığı Crescendo gibi çok turlu jailbreak (diğer adıyla çok atışlı jailbreak) yöntemlerinden biraz farklıdır.

Son araştırmalar aynı zamanda Yüksek Lisans’ın güvenlik ağını aşabilen bir kara kutu jailbreak yöntemi olan Bağlam Füzyon Saldırısı (CFA) olarak adlandırılan yöntemi de araştırdı.

Bir grup araştırmacı, “Bu yöntem yaklaşımı, anahtar terimlerin hedeften filtrelenmesini ve çıkarılmasını, bu terimler etrafında bağlamsal senaryolar oluşturulmasını, hedefin senaryolara dinamik olarak entegre edilmesini, hedef içindeki kötü amaçlı anahtar terimlerin değiştirilmesini ve böylece doğrudan kötü niyetli niyetin gizlenmesini içerir.” Xidian Üniversitesi ve 360 Yapay Zeka Güvenlik Laboratuvarı’ndan söz konusu Ağustos 2024’te yayınlanan bir makalede.

Deceptive Delight, iki konuşma sırası içinde bağlamı manipüle ederek ve böylece yanlışlıkla güvenli olmayan içeriği ortaya çıkaracak şekilde kandırarak Yüksek Lisans’ın doğasında olan zayıflıklardan yararlanmak üzere tasarlanmıştır. Üçüncü bir dönüşün eklenmesi, zararlı çıktının ciddiyetini ve ayrıntısını artırma etkisine sahiptir.

Bu, modelin tepkiler üretirken bağlamsal farkındalığı işleme ve koruma kapasitesini ifade eden sınırlı dikkat süresinden faydalanmayı içerir.

Araştırmacılar, “LLM’ler, zararsız içeriği potansiyel olarak tehlikeli veya zararlı materyalle harmanlayan yönlendirmelerle karşılaştıklarında, sınırlı dikkat süreleri, tüm bağlamı tutarlı bir şekilde değerlendirmeyi zorlaştırıyor” diye açıkladı.

“Karmaşık veya uzun pasajlarda model, güvenli olmayan yönleri gözden kaçırırken veya yanlış yorumlarken iyi huylu yönlere öncelik verebilir. Bu, bir kişinin dikkati bölünmüşse, önemli ancak incelikli uyarıları ayrıntılı bir raporda nasıl gözden kaçırabileceğini yansıtıyor.”

Birim 42 bunu söyledi test edildi Nefret, taciz, kendine zarar verme, cinsellik, şiddet ve tehlikeli gibi altı geniş kategoride 40 güvensiz konuyu kullanan sekiz yapay zeka modeli, şiddet kategorisindeki güvenli olmayan konuların çoğu modelde en yüksek ASR’ye sahip olma eğiliminde olduğunu buldu.

Bunun da ötesinde, ortalama Zararlılık Puanının (HS) ve Kalite Puanının (QS) ikinci virajdan üçüncü viraja sırasıyla %21 ve %33 oranında arttığı ve üçüncü turun da tüm zamanların en yüksek ASR’sine ulaştığı görüldü. modeller.

Aldatıcı Zevk’in oluşturduğu riski azaltmak için sağlam bir yaklaşımın benimsenmesi önerilir. içerik filtreleme stratejisiLLM’lerin dayanıklılığını artırmak için hızlı mühendislik kullanın ve kabul edilebilir girdi ve çıktı aralığını açıkça tanımlayın.

Araştırmacılar, “Bu bulgular, yapay zekanın doğası gereği güvensiz veya güvensiz olduğunun kanıtı olarak görülmemelidir” dedi. “Daha ziyade, bu modellerin kullanışlılığını ve esnekliğini korurken jailbreak risklerini azaltmak için çok katmanlı savunma stratejilerine duyulan ihtiyacı vurguluyorlar.”

Yeni çalışmalar, üretken yapay zeka modellerinin, geliştiricilere var olmayan paketler önerebilecekleri bir tür “paket karışıklığı”na açık olduğunu gösterdiğinden, Yüksek Lisans’ların jailbreak ve halüsinasyonlara karşı tamamen bağışık olması pek olası değildir.

Bu, kötü niyetli aktörlerin halüsinasyonlu paketler oluşturması, bunları kötü amaçlı yazılımla tohumlaması ve açık kaynak depolarına itmesi durumunda yazılım tedarik zinciri saldırılarını körüklemek gibi talihsiz bir yan etkiye neden olabilir.

Araştırmacılar, “Halüsinasyonlu paketlerin ortalama yüzdesi, ticari modeller için en az %5,2 ve açık kaynaklı modeller için %21,7’dir; halüsinasyonlu paket adlarının şaşırtıcı 205.474 benzersiz örneği de dahil olmak üzere, bu durum, bu tehdidin ciddiyetini ve yaygınlığını daha da vurgulamaktadır.” söz konusu.

siber-2

Araştırmacılar Jailbreak Yapay Zeka Modellerine Yönelik ‘Aldatıcı Zevk’ Yöntemini Ortaya Çıkardı

Byteknomers

By teknomers

Benzer İçerikler

COD: Black Ops 6 ve Warzone Yama Notları Ayrıntı Hit Listesi Etkinliği ve Yeniden Doğuş Adası’nın Dönüşü

Monajro büyüklüğündeki 1.420 km menzilli Geely crossover’ın fiyatı 17.000 dolardan daha ucuz. Geely Galaxy Starship 7 EM-i Çin’deki bayilerde göründü

My Hero Academia’nın Son Cildi Yeni İçerikle Japonya’da Yayınlanacak

My Hero Academia’nın Son Cildi Yeni İçerikle Japonya’da Yayınlanacak

Nitro Deck Nintendo Switch Denetleyici Paketleri Amazon’da Büyük İndirime Girdi

AMD, oyuncuların hız aşırtma için AMD Ryzen 7800X3D’den 9800X3D’ye geçiş yapacağını söylüyor

Terraria’nın En İyi Mühimmatı, Dereceli

Pixel telefonlar ve bazı Android modelleri, Google Keep uygulamasında harika bir AI listesi oluşturma aracına sahip oluyor

Amazon, Samsung’un yeni ve sıcak Galaxy Buds 3 Pro’sunu Black Friday’de 60 $ indirimle satın alınması gereken bir ürün haline getiriyor

Yeni teknoloji, işlemci performansını stok kıyaslamalarının ötesinde artırmayı vaat ediyor

iPhone 16’nız, Apple’ın 2026’da reklamını yaptığı şeyi sunacak

Yaşamın kökeni araştırması, RNA’nın hem sol hem de sağ elini kullanan proteinleri destekleyebileceğini ortaya koyuyor

Gökbilimciler galaksimizin dışındaki bir yıldızın ilk yakın çekim fotoğrafını çekti

NASA’nın Swift’i geliştirilmiş işaretleme modunda 20. yıl dönümüne ulaştı

NASA okyanus dünyası kaşifleri uçmadan önce yüzmek zorunda

İlginizi Çekebilir

ChatGPT Canlı Video Özelliği En Son Beta Sürümde Tespit Edildi, Yakında Başlayabilir

COD: Black Ops 6 ve Warzone Yama Notları Ayrıntı Hit Listesi Etkinliği ve Yeniden Doğuş Adası’nın Dönüşü

Monajro büyüklüğündeki 1.420 km menzilli Geely crossover’ın fiyatı 17.000 dolardan daha ucuz. Geely Galaxy Starship 7 EM-i Çin’deki bayilerde göründü

Resmi geri dönüş! Oppo Alman pazarına döneceğini doğruladı