Antropic, “Yeni makalemizde, modelleri jailbreaklere karşı koruyan anayasal sınıflandırıcılara dayanan bir sistemi tanımlıyoruz” dedi. “Bu anayasal sınıflandırıcılar, minimum aşırı gerilemelerle ve büyük bir hesaplama yüküne sahip olmadan jailbreaklerin ezici çoğunluğunu filtreleyen sentetik olarak üretilen veriler üzerinde eğitilmiş girdi ve çıktı sınıflandırıcılarıdır.”
Anayasa sınıflandırıcıları, daha önce Claude’u hizalamak için kullanılan bir teknik olan anayasal yapay zekaya benzer bir sürece dayanıyor. Her iki yöntem de bir anayasaya dayanır – modelin takip etmek için tasarlandığı bir dizi ilke.
Şirket, “Anayasal sınıflandırıcılar söz konusu olduğunda, ilkeler izin verilen ve izin verilmeyen içerik sınıflarını tanımlar (örneğin hardal tariflerine izin verilir, ancak hardal gazı tarifleri yoktur)” diye ekledi şirket.
Bu ilerleme, kuruluşların veri ihlalleri, düzenleyici uyumsuzluk ve AI tarafından üretilen zararlı içerikten kaynaklanan itibar hasarı gibi AI ile ilgili riskleri azaltmasına yardımcı olabilir.
Diğer teknoloji şirketleri de benzer adımlar attı, Microsoft geçen yıl Mart ayında “istekli kalkanlar” özelliğini tanıttı ve Meta, Temmuz 2024’te hızlı bir bekçi modelini açtı.
Gelişen güvenlik paradigmaları
Yapay zeka benimsemesi endüstriler arasında hızlandıkça, güvenlik paradigmaları ortaya çıkan tehditleri ele almak için gelişmektedir.


