Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: ‘Anayasal Sınıflandırıcılar’ Tekniği Genai Jailbreaks
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » ‘Anayasal Sınıflandırıcılar’ Tekniği Genai Jailbreaks

GenelSiber Güvenlik

‘Anayasal Sınıflandırıcılar’ Tekniği Genai Jailbreaks

teknomers
Son güncelleme: 10 Şubat 2025 13:55
teknomers
Paylaş
Paylaş


Contents
  • “Anayasal Sınıflandırıcılar” Jailbreak Technique
  • Etkinliği verimlilikle dengelemek
  • LLM Jailbreaks: Büyük Bir Tehdit

Claude AI asistanının arkasındaki şirket olan Antropic’teki araştırmacılar, kötü niyetli aktörlerin bir dizi büyük dil modelinin yerleşik güvenlik mekanizmalarını (LLMS’nin yerleşik güvenlik mekanizmalarını atlamasını zorlaştırmak için pratik, ölçeklenebilir bir yöntem sağladığına inandıkları bir yaklaşım geliştirdiler. ).

Yaklaşım, bir AI modelinin girdi ve çıktısında izin verilen ve izin verilmeyen içerik kategorileri oluşturmak için bir dizi doğal dil kuralı – veya bir “anayasa” kullanır ve daha sonra bu içerik sınıflandırıcılarını tanımak ve uygulamak için modeli eğitmek için sentetik verileri kullanır.

“Anayasal Sınıflandırıcılar” Jailbreak Technique

Bir teknik makale Bu hafta yayınlanan antropik araştırmacılar, anayasal sınıflandırıcılar yaklaşımının, Hackerone Bug Bounty programı aracılığıyla 183 Beyaz Hat hacker tarafından 3.000 saatten fazla insan kırmızı takımına dayanarak evrensel jailbreak’lere karşı etkili olduğunu söyledi.

Araştırmacılar, “Bu anayasal sınıflandırıcılar, asgari düzeyde aşırı gerilemelerle ve büyük bir hesaplama yükü olan jailbreaklerin ezici çoğunluğunu filtreleyen sentetik olarak oluşturulan veriler üzerinde eğitilmiş girdi ve çıktı sınıflandırıcılarıdır.” Dedi. Blog yazısı. Bir demo web sitesi Bir LLM’yi jailbreaking deneyimi olan herkes, önümüzdeki hafta (3 Şubat – 10 Şubat) sistemlerini deneyebilir.

İlgili:LLM korsanları hızlı bir şekilde Deepseek API Keys’i içerir

Üretken AI (GENAI) modelleri bağlamında, bir jailbreak, modelin yerleşik içerik filtrelerini, güvenlik mekanizmalarını ve etik kısıtlamalarını atlamasına neden olan herhangi bir istemi veya istem kümesidir. Genellikle bir araştırmacı veya kötü bir aktör, belirli giriş dizileri hazırlar, dilsel hileler ve hatta bir AI modelini koruyucu korkuluklarından kaçmak ve potansiyel olarak tehlikeli, kötü niyetli ve yanlış içeriği ortaya çıkarmak için rol yapma senaryolarını kullanarak içerirler.

En son örnek, Wallarm’daki araştırmacıları içerir Deepseek’ten sırlar çıkarmayakın zamanda bir LLM’ye güç vermek için ne kadar hesaplama gücünün gerekli olduğu konusunda uzun süredir devam eden kavramları yükselten Çin üretken AI aracı. CHATGPT, Kasım 2022’de olay yerinde patladığından, araştırmacıların kullandığı bir örnek de dahil olmak üzere birçok örnek vardı. bir saniye jailbreak için bir llmbaşka bir belirli kelimelerin tekrarlayan kullanımı Eğitim verilerini dökmek için bir LLM almak için Doktor görüntüler ve ses.

Etkinliği verimlilikle dengelemek

Anayasal sınıflandırıcılar sistemini geliştirirken, araştırmacılar, insanların bir AI modelinden meşru bilgi çıkarma yeteneğini büyük ölçüde etkilemeden jailbreaking girişimlerine karşı yüksek bir etkinlik sağlamak istediler. Basit bir örnek, modelin ortak ilaçların bir listesini isteyen bir bilgi istemini veya hanehalkı kimyasallarının özelliklerini açıklamak için kısıtlı bir kimyasalın nereden alınacağına veya onu arındırılacağına dair bir talebe ayırt edebilmesini sağlamaktı. Araştırmacılar ayrıca sınıflandırıcıları kullanırken minimum ek bilgi işlem yükü sağlamak istediler.

İlgili:Araştırmacı Outsmarts, Jailbreaks Openai’nin yeni O3-Mini

Testlerde, araştırmacılar, anayasal sınıflandırıcı kullanan birinde% 4,4 ile karşılaştırıldığında, savunma sınıflandırıcıları olmayan Claude’un bir versiyonunda% 86 jailbreak başarı oranına sahipti. Araştırmacılara göre, sınıflandırıcıyı kullanmak, reddetme oranlarını% 1’den az artırdı ve korumasız modele kıyasla maliyetleri yaklaşık% 24 oranında hesapladı.

LLM Jailbreaks: Büyük Bir Tehdit

Jailbreaks, sofistike bilimsel yeteneklere sahip Genai modellerini yaygın olarak kullanılabilir hale getirmek söz konusu olduğunda büyük bir değerlendirme olarak ortaya çıkmıştır. Endişe, vasıfsız bir aktöre bile becerilerini uzman düzeyinde yeteneklere “yükseltme” fırsatı vermesidir. Antropik araştırmacılar, LLM’leri tehlikeli kimyasal, biyolojik, radyolojik veya nükleer (CBRN) bilgileri açıklamaya çalışırken bu özellikle büyük bir sorun haline gelebilir.

İlgili:Pypi’de Deepseek Paketleri Giyinmiş AI kötü amaçlı yazılım

Çalışmaları, bir AI modelinin girişlerini ve çıktılarını izleyen ve potansiyel olarak zararlı içeriği engelleyen sınıflandırıcılarla bir LLM’nin nasıl artırılacağına odaklandı. Sabit kodlu statik filtreleme kullanmak yerine, bir modelin korkulukları hakkında daha sofistike bir anlayışa sahip olacak ve yanıtlar üretirken veya giriş alırken gerçek zamanlı bir filtre olarak hareket edecek bir şey istediler. Araştırmacılar, “Bu basit yaklaşım son derece etkili: sınıflandırıcı korunan bir sistemde 3000 saatten fazla insan kırmızı bir takım olarak, hedefimizde başarılı bir evrensel jailbreak gözlemlemedik …” diye yazdı. Kırmızı takım testleri, Claude AI’dan, bilinen binlerce jailbreak hack kullanarak CBRN risklerini içeren bir dizi zararlı soruya cevap almaya çalışan böcek ödül avcılarını içeriyordu.



siber-1

Apple’ın 2025’in başlarındaki lansman için M4 MacBook Air üretimine öncelik verdiği bildirildi – yeni Mac Studio arka planda kalabilir
Bu muhteşem fırsatta Amazon Fire 7 Tablet’i sadece 29 £ karşılığında alın
ChatGPT Görevlerini test etmek için saatler harcadım
Vatandaş bilim insanının 2015’teki gözlemlerinin analizi, atmosferik olayları ortaya koyuyor
Google Pixel 8 Pro, ultrasonik parmak izi tarayıcı alabilir
ETİKETLENDİ:AnayasalGenAIJailbreakssınıflandırıcılarTekniği
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Şimdi % 50’den fazla tasarruf edin: En yüksek fiyata takip maliyeti yok
Sonraki Makale Hyundai Creta Rus Meclisi: Rusya’da Solaris HC fiyatları değişti, yeni versiyonlar ortaya çıktı

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Acil: KongTuke ile İlişkili Gizli Backdoor Tehlikesi!
Siber Güvenlik
Açık Kaynak CRM’i AI Tabanlı Hale Getirmek (Laravel/AI Üretimde)
Yazılım
BenQ 4100i: Sinema Deneyimini Evinize Taşıyan Projeksiyon Cihazı!
Genel
GTA VI için Fiyat Etiketi Nihayet Belirlendi
Liste
Çin’de Kaçakçılıkla Mücadele, A100 Sunucuların Fiyatını Üç Kat Arttırdı
Donanım
Minecraft’ın Yeni Sırt Çantası Envanterinizi Değiştiriyor
Oyun
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?