'Anayasal Sınıflandırıcılar' Tekniği Genai Jailbreaks - Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film

Contents

“Anayasal Sınıflandırıcılar” Jailbreak Technique
Etkinliği verimlilikle dengelemek
LLM Jailbreaks: Büyük Bir Tehdit

Claude AI asistanının arkasındaki şirket olan Antropic’teki araştırmacılar, kötü niyetli aktörlerin bir dizi büyük dil modelinin yerleşik güvenlik mekanizmalarını (LLMS’nin yerleşik güvenlik mekanizmalarını atlamasını zorlaştırmak için pratik, ölçeklenebilir bir yöntem sağladığına inandıkları bir yaklaşım geliştirdiler. ).

Yaklaşım, bir AI modelinin girdi ve çıktısında izin verilen ve izin verilmeyen içerik kategorileri oluşturmak için bir dizi doğal dil kuralı – veya bir “anayasa” kullanır ve daha sonra bu içerik sınıflandırıcılarını tanımak ve uygulamak için modeli eğitmek için sentetik verileri kullanır.

“Anayasal Sınıflandırıcılar” Jailbreak Technique

Bir teknik makale Bu hafta yayınlanan antropik araştırmacılar, anayasal sınıflandırıcılar yaklaşımının, Hackerone Bug Bounty programı aracılığıyla 183 Beyaz Hat hacker tarafından 3.000 saatten fazla insan kırmızı takımına dayanarak evrensel jailbreak’lere karşı etkili olduğunu söyledi.

Araştırmacılar, “Bu anayasal sınıflandırıcılar, asgari düzeyde aşırı gerilemelerle ve büyük bir hesaplama yükü olan jailbreaklerin ezici çoğunluğunu filtreleyen sentetik olarak oluşturulan veriler üzerinde eğitilmiş girdi ve çıktı sınıflandırıcılarıdır.” Dedi. Blog yazısı. Bir demo web sitesi Bir LLM’yi jailbreaking deneyimi olan herkes, önümüzdeki hafta (3 Şubat – 10 Şubat) sistemlerini deneyebilir.

İlgili:LLM korsanları hızlı bir şekilde Deepseek API Keys’i içerir

Üretken AI (GENAI) modelleri bağlamında, bir jailbreak, modelin yerleşik içerik filtrelerini, güvenlik mekanizmalarını ve etik kısıtlamalarını atlamasına neden olan herhangi bir istemi veya istem kümesidir. Genellikle bir araştırmacı veya kötü bir aktör, belirli giriş dizileri hazırlar, dilsel hileler ve hatta bir AI modelini koruyucu korkuluklarından kaçmak ve potansiyel olarak tehlikeli, kötü niyetli ve yanlış içeriği ortaya çıkarmak için rol yapma senaryolarını kullanarak içerirler.

En son örnek, Wallarm’daki araştırmacıları içerir Deepseek’ten sırlar çıkarmayakın zamanda bir LLM’ye güç vermek için ne kadar hesaplama gücünün gerekli olduğu konusunda uzun süredir devam eden kavramları yükselten Çin üretken AI aracı. CHATGPT, Kasım 2022’de olay yerinde patladığından, araştırmacıların kullandığı bir örnek de dahil olmak üzere birçok örnek vardı. bir saniye jailbreak için bir llmbaşka bir belirli kelimelerin tekrarlayan kullanımı Eğitim verilerini dökmek için bir LLM almak için Doktor görüntüler ve ses.

Etkinliği verimlilikle dengelemek

Anayasal sınıflandırıcılar sistemini geliştirirken, araştırmacılar, insanların bir AI modelinden meşru bilgi çıkarma yeteneğini büyük ölçüde etkilemeden jailbreaking girişimlerine karşı yüksek bir etkinlik sağlamak istediler. Basit bir örnek, modelin ortak ilaçların bir listesini isteyen bir bilgi istemini veya hanehalkı kimyasallarının özelliklerini açıklamak için kısıtlı bir kimyasalın nereden alınacağına veya onu arındırılacağına dair bir talebe ayırt edebilmesini sağlamaktı. Araştırmacılar ayrıca sınıflandırıcıları kullanırken minimum ek bilgi işlem yükü sağlamak istediler.

İlgili:Araştırmacı Outsmarts, Jailbreaks Openai’nin yeni O3-Mini

Testlerde, araştırmacılar, anayasal sınıflandırıcı kullanan birinde% 4,4 ile karşılaştırıldığında, savunma sınıflandırıcıları olmayan Claude’un bir versiyonunda% 86 jailbreak başarı oranına sahipti. Araştırmacılara göre, sınıflandırıcıyı kullanmak, reddetme oranlarını% 1’den az artırdı ve korumasız modele kıyasla maliyetleri yaklaşık% 24 oranında hesapladı.

LLM Jailbreaks: Büyük Bir Tehdit

Jailbreaks, sofistike bilimsel yeteneklere sahip Genai modellerini yaygın olarak kullanılabilir hale getirmek söz konusu olduğunda büyük bir değerlendirme olarak ortaya çıkmıştır. Endişe, vasıfsız bir aktöre bile becerilerini uzman düzeyinde yeteneklere “yükseltme” fırsatı vermesidir. Antropik araştırmacılar, LLM’leri tehlikeli kimyasal, biyolojik, radyolojik veya nükleer (CBRN) bilgileri açıklamaya çalışırken bu özellikle büyük bir sorun haline gelebilir.

İlgili:Pypi’de Deepseek Paketleri Giyinmiş AI kötü amaçlı yazılım

Çalışmaları, bir AI modelinin girişlerini ve çıktılarını izleyen ve potansiyel olarak zararlı içeriği engelleyen sınıflandırıcılarla bir LLM’nin nasıl artırılacağına odaklandı. Sabit kodlu statik filtreleme kullanmak yerine, bir modelin korkulukları hakkında daha sofistike bir anlayışa sahip olacak ve yanıtlar üretirken veya giriş alırken gerçek zamanlı bir filtre olarak hareket edecek bir şey istediler. Araştırmacılar, “Bu basit yaklaşım son derece etkili: sınıflandırıcı korunan bir sistemde 3000 saatten fazla insan kırmızı bir takım olarak, hedefimizde başarılı bir evrensel jailbreak gözlemlemedik …” diye yazdı. Kırmızı takım testleri, Claude AI’dan, bilinen binlerce jailbreak hack kullanarak CBRN risklerini içeren bir dizi zararlı soruya cevap almaya çalışan böcek ödül avcılarını içeriyordu.

siber-1

‘Anayasal Sınıflandırıcılar’ Tekniği Genai Jailbreaks

“Anayasal Sınıflandırıcılar” Jailbreak Technique

Etkinliği verimlilikle dengelemek

LLM Jailbreaks: Büyük Bir Tehdit

Sanal Medya

Son Eklenenler

Acil: KongTuke ile İlişkili Gizli Backdoor Tehlikesi!

Açık Kaynak CRM’i AI Tabanlı Hale Getirmek (Laravel/AI Üretimde)

BenQ 4100i: Sinema Deneyimini Evinize Taşıyan Projeksiyon Cihazı!

GTA VI için Fiyat Etiketi Nihayet Belirlendi

Çin’de Kaçakçılıkla Mücadele, A100 Sunucuların Fiyatını Üç Kat Arttırdı

Minecraft’ın Yeni Sırt Çantası Envanterinizi Değiştiriyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer