Antropik, AI modellerinden zararlı içeriği engellemek için yeni çerçeve açıklıyor

Son güncelleme: 5 Şubat 2025 11:48

Antropic, “Yeni makalemizde, modelleri jailbreaklere karşı koruyan anayasal sınıflandırıcılara dayanan bir sistemi tanımlıyoruz” dedi. “Bu anayasal sınıflandırıcılar, minimum aşırı gerilemelerle ve büyük bir hesaplama yüküne sahip olmadan jailbreaklerin ezici çoğunluğunu filtreleyen sentetik olarak üretilen veriler üzerinde eğitilmiş girdi ve çıktı sınıflandırıcılarıdır.”

Anayasa sınıflandırıcıları, daha önce Claude’u hizalamak için kullanılan bir teknik olan anayasal yapay zekaya benzer bir sürece dayanıyor. Her iki yöntem de bir anayasaya dayanır – modelin takip etmek için tasarlandığı bir dizi ilke.

Şirket, “Anayasal sınıflandırıcılar söz konusu olduğunda, ilkeler izin verilen ve izin verilmeyen içerik sınıflarını tanımlar (örneğin hardal tariflerine izin verilir, ancak hardal gazı tarifleri yoktur)” diye ekledi şirket.

Bu ilerleme, kuruluşların veri ihlalleri, düzenleyici uyumsuzluk ve AI tarafından üretilen zararlı içerikten kaynaklanan itibar hasarı gibi AI ile ilgili riskleri azaltmasına yardımcı olabilir.

Diğer teknoloji şirketleri de benzer adımlar attı, Microsoft geçen yıl Mart ayında “istekli kalkanlar” özelliğini tanıttı ve Meta, Temmuz 2024’te hızlı bir bekçi modelini açtı.

Gelişen güvenlik paradigmaları

Yapay zeka benimsemesi endüstriler arasında hızlandıkça, güvenlik paradigmaları ortaya çıkan tehditleri ele almak için gelişmektedir.

genel-13

ETİKETLENDİ:Açıklıyor antropik Çerçeve Engellemek içeriği için modellerinden Yeni zararlı

Bu Makaleyi Paylaş

Önceki Makale Meta’s CTO iddiaları 2025, Metaverse’in geleceğini tanımlayacak ve platform çekiş kazanamazsa, bunun ‘efsanevi bir yanlış macera’ olacağını söylüyor

Sonraki Makale Koreli Perakende RTX 5090 Çin’de Satılık Benekli – Çinli Müşteriler Japonya ve Tayvan’ı da yağmalayın

Antropik, AI modellerinden zararlı içeriği engellemek için yeni çerçeve açıklıyor

Gelişen güvenlik paradigmaları

Sanal Medya

Son Eklenenler

Even Realities, 150M Dolar Yatırımla 1 Milyar Dolar Değerlere Ulaştı

Kritik! Yeni TrojPix Saldırısı Hava Gapsiz Sistemlerden Veri Sızdırıyor

Filistinlilerin Silinemez Dijital Arşiv Oluşturma Çabası

Opera GX Açığı: Ziyaret Edilen Sayfalardan Veri Çalan Modlar Kuruluyor!

Laravel Route Metadata: Nihayet Çözdüğü 5 Gerçek Problem

Kritik: SkillCloak ile Kötü Niyetli AI Yetenekleri Yakayı Kurtarıyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer