Antropic, Pazartesi günü yapay zeka (AI) modellerini jailbreaking girişimlerinden koruyabilecek yeni bir sistemin gelişimini duyurdu. Anayasal sınıflandırıcılar olarak adlandırılan, girdi düzeyinde bir jailbreaking girişiminin ne zaman yapıldığını tespit edebilen ve AI’nın bunun sonucunda zararlı bir yanıt üretmesini önleyebilen bir koruyucu bir tekniktir. AI firması, bağımsız jailbreakers aracılığıyla sistemin sağlamlığını test etti ve aynı zamanda herhangi bir bireyin yeteneklerini test etmesine izin vermek için sistemin geçici bir canlı demounu açtı.
Antropik anayasal sınıflandırıcıları ortaya çıkarır
Üretken AI’da jailbreaking, bir AI modelini eğitim yönergelerine uymaya ve zararlı ve uygunsuz içerik üretmemeye zorlayabilecek olağandışı hızlı yazma tekniklerini ifade eder. Jailbreaking yeni bir şey değildir ve çoğu AI geliştiricisi model içinde buna karşı birkaç önlem uygular. Bununla birlikte, hızlı mühendisler yeni teknikler oluşturmaya devam ettikleri için, bu tür saldırılardan tamamen korunan büyük bir dil modeli (LLM) oluşturmak zordur.
Bazı jailbreakik teknikler, AI’nın akıl yürütme yeteneklerini karıştıran son derece uzun ve kıvrımlı istemleri içerir. Diğerleri güvenceleri yıkmak için birden fazla istem kullanır ve bazıları AI savunmalarını kırmak için alışılmadık büyük harf kullanır.
Bir postalamak Araştırmayı detaylandıran Antropic, anayasal sınıflandırıcıları AI modelleri için koruyucu bir katman olarak geliştirdiğini duyurdu. Modelin yapışması gereken ilkelerin bir listesi ile sağlanan iki sınıflandırıcı – giriş ve çıktı – vardır. Bu ilke listesine Anayasa denir. Özellikle, AI firması zaten Claude modellerini hizalamak için anayasalar kullanıyor.
![]()
Anayasal sınıflandırıcılar nasıl çalışır?
Fotoğraf Kredisi: Antropik
Şimdi, anayasal sınıflandırıcılarla, bu ilkeler izin verilen ve izin verilmeyen içerik sınıflarını tanımlamaktadır. Bu anayasa, Claude’dan farklı içerik sınıflarında çok sayıda bilgi ve model tamamlama oluşturmak için kullanılır. Oluşturulan sentetik veriler de farklı dillere çevrilir ve bilinen jailbreaking stillerine dönüştürülür. Bu şekilde, bir modele girmek için kullanılabilecek büyük bir içerik veri kümesi oluşturulur.
Bu sentetik veriler daha sonra giriş ve çıkış sınıflandırıcılarını eğitmek için kullanılır. Antropic, 183 bağımsız jailbreaker’ı anayasal sınıflandırıcıları atlamaya çalışmaya davet eden bir böcek ödül programı gerçekleştirdi. Sistemin nasıl çalıştığına dair derinlemesine bir açıklama bir araştırmada ayrıntılı kağıt Arxiv’de yayınlandı. Şirket, evrensel jailbreak’in (farklı içerik sınıflarında çalışan bir istem stili) keşfedilmediğini iddia etti.
Ayrıca, AI firmasının 10.000 jailbreaking istemini kullanarak Claude’a çarptığı otomatik bir değerlendirme testi sırasında, korumasız bir AI modeli için yüzde 86’nın aksine başarı oranının yüzde 4,4 olduğu bulundu. Antropik ayrıca aşırı retleri (zararsız sorguların reddedilmesi) ve anayasal sınıflandırıcıların ek işleme güç gereksinimlerini en aza indirebildi.
Ancak, belirli sınırlamalar vardır. Antropic, anayasal sınıflandırıcıların her evrensel jailbreak’i önleyemeyebileceğini kabul etti. Ayrıca sistemi yenmek için tasarlanmış yeni jailbreaking tekniklerine daha az dirençli olabilir. Sistemin sağlamlığını test etmek isteyenler canlı demo versiyonunu bulabilir Burada. 10 Şubat’a kadar aktif kalacak.
En son teknoloji haberleri ve incelemeleri için Gadgets 360’ı takip edin. X– Facebook– Whatsapp– İplikler Ve Google Haberleri. Gadgets ve Tech ile ilgili en son videolar için, YouTube Kanalı. En iyi etkileyiciler hakkında her şeyi bilmek istiyorsanız, şirket içimizi takip edin Kimler 360 Açık Instagram Ve YouTube.

Android için WhatsApp, Bağlantılı Cihazlarda Medya Medya Bir kez açma yeteneğini test etmeye başlar

