Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Jailbreak girişimlerinden AI modellerini korumak için antropik gelişen anayasal sınıflandırıcılar
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Jailbreak girişimlerinden AI modellerini korumak için antropik gelişen anayasal sınıflandırıcılar

Liste

Jailbreak girişimlerinden AI modellerini korumak için antropik gelişen anayasal sınıflandırıcılar

teknomers
Son güncelleme: 4 Şubat 2025 13:00
teknomers
Paylaş
Paylaş


Antropic, Pazartesi günü yapay zeka (AI) modellerini jailbreaking girişimlerinden koruyabilecek yeni bir sistemin gelişimini duyurdu. Anayasal sınıflandırıcılar olarak adlandırılan, girdi düzeyinde bir jailbreaking girişiminin ne zaman yapıldığını tespit edebilen ve AI’nın bunun sonucunda zararlı bir yanıt üretmesini önleyebilen bir koruyucu bir tekniktir. AI firması, bağımsız jailbreakers aracılığıyla sistemin sağlamlığını test etti ve aynı zamanda herhangi bir bireyin yeteneklerini test etmesine izin vermek için sistemin geçici bir canlı demounu açtı.

Antropik anayasal sınıflandırıcıları ortaya çıkarır

Üretken AI’da jailbreaking, bir AI modelini eğitim yönergelerine uymaya ve zararlı ve uygunsuz içerik üretmemeye zorlayabilecek olağandışı hızlı yazma tekniklerini ifade eder. Jailbreaking yeni bir şey değildir ve çoğu AI geliştiricisi model içinde buna karşı birkaç önlem uygular. Bununla birlikte, hızlı mühendisler yeni teknikler oluşturmaya devam ettikleri için, bu tür saldırılardan tamamen korunan büyük bir dil modeli (LLM) oluşturmak zordur.

Bazı jailbreakik teknikler, AI’nın akıl yürütme yeteneklerini karıştıran son derece uzun ve kıvrımlı istemleri içerir. Diğerleri güvenceleri yıkmak için birden fazla istem kullanır ve bazıları AI savunmalarını kırmak için alışılmadık büyük harf kullanır.

Bir postalamak Araştırmayı detaylandıran Antropic, anayasal sınıflandırıcıları AI modelleri için koruyucu bir katman olarak geliştirdiğini duyurdu. Modelin yapışması gereken ilkelerin bir listesi ile sağlanan iki sınıflandırıcı – giriş ve çıktı – vardır. Bu ilke listesine Anayasa denir. Özellikle, AI firması zaten Claude modellerini hizalamak için anayasalar kullanıyor.

Anayasa Sınıflandırıcı Anayasal sınıflandırıcılar

Anayasal sınıflandırıcılar nasıl çalışır?
Fotoğraf Kredisi: Antropik

Şimdi, anayasal sınıflandırıcılarla, bu ilkeler izin verilen ve izin verilmeyen içerik sınıflarını tanımlamaktadır. Bu anayasa, Claude’dan farklı içerik sınıflarında çok sayıda bilgi ve model tamamlama oluşturmak için kullanılır. Oluşturulan sentetik veriler de farklı dillere çevrilir ve bilinen jailbreaking stillerine dönüştürülür. Bu şekilde, bir modele girmek için kullanılabilecek büyük bir içerik veri kümesi oluşturulur.

Bu sentetik veriler daha sonra giriş ve çıkış sınıflandırıcılarını eğitmek için kullanılır. Antropic, 183 bağımsız jailbreaker’ı anayasal sınıflandırıcıları atlamaya çalışmaya davet eden bir böcek ödül programı gerçekleştirdi. Sistemin nasıl çalıştığına dair derinlemesine bir açıklama bir araştırmada ayrıntılı kağıt Arxiv’de yayınlandı. Şirket, evrensel jailbreak’in (farklı içerik sınıflarında çalışan bir istem stili) keşfedilmediğini iddia etti.

Ayrıca, AI firmasının 10.000 jailbreaking istemini kullanarak Claude’a çarptığı otomatik bir değerlendirme testi sırasında, korumasız bir AI modeli için yüzde 86’nın aksine başarı oranının yüzde 4,4 olduğu bulundu. Antropik ayrıca aşırı retleri (zararsız sorguların reddedilmesi) ve anayasal sınıflandırıcıların ek işleme güç gereksinimlerini en aza indirebildi.

Ancak, belirli sınırlamalar vardır. Antropic, anayasal sınıflandırıcıların her evrensel jailbreak’i önleyemeyebileceğini kabul etti. Ayrıca sistemi yenmek için tasarlanmış yeni jailbreaking tekniklerine daha az dirençli olabilir. Sistemin sağlamlığını test etmek isteyenler canlı demo versiyonunu bulabilir Burada. 10 Şubat’a kadar aktif kalacak.

En son teknoloji haberleri ve incelemeleri için Gadgets 360’ı takip edin. X– Facebook– Whatsapp– İplikler Ve Google Haberleri. Gadgets ve Tech ile ilgili en son videolar için, YouTube Kanalı. En iyi etkileyiciler hakkında her şeyi bilmek istiyorsanız, şirket içimizi takip edin Kimler 360 Açık Instagram Ve YouTube.

Android için WhatsApp, Bağlantılı Cihazlarda Medya Medya Bir kez açma yeteneğini test etmeye başlar





genel-8

Hindistan için OnePlus 12, OnePlus 12R Renkli, RAM ve Depolama Seçenekleri Çevrimiçi Sızıntı
iPhone 13 hala yüksek talep görüyor. Geçen çeyrekte Apple için Hindistan pazarına ilk kez liderlik eden oydu.
Wanda Fish, kültürlü mavi yüzgeçli orkinos üretimi için 7 milyon dolar yakalamak üzere VC sularına yöneliyor
‘Fortnite’ yapımcısı Epic Games, uygulama mağazasını AB’de iOS’ta, Android’de ise dünya çapında başlattı
Gwyneth Paltrow, Coldplay öpüşme skandalında astronom için geçici sözcü oldu.
ETİKETLENDİ:AIAnayasalantropikAntropik Anayasal Sınıflandırıcılar AI Modelleri Jailbreak Denemeleri Anayasal SınıflandırıcılarGelişengirişimlerindeniçinJailbreakkorumakModellerinisınıflandırıcılaryapay zeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale NASA’nın en yeni uzay teleskopu Spherex hakkında bilmeniz gereken altı şey
Sonraki Makale PS5’te “Beklentileri karşılamadıktan” sonra, ‘Final Fantasy VII: Rebirth’, Steam yoluyla muhteşem bir Windows PC lansmanının tadını çıkardı

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Arc Raiders’ın Karanlık Yüzü: Unutulmaz Bir Deneyim Sizi Bekliyor
Oyun
Robotaksi Savaşı: Uber, Wayve ve Waymo Londra’da Karşılaşıyor
Genel
WWDC 2026’da Neler Olacak ve Nasıl İzlenir?
Liste
Acil: VerdantBamboo, Linux Cihazlarında BSD Tabanlı BRICKSTORM’u Yayınladı
Siber Güvenlik
Afroman Döndü: Bitcoin’le Özgürlük Mücadelesi Veriyor!
Genel
Gears Of War Tasarımcısından E-Day Hakkında Çarpıcı Yorumlar
Oyun
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?