Anthropic, yeni yapay zeka modeli Claude Fable 5’in gizlice kısıtlandığı için özür diledi. Bu gizli güvenlik önlemleri, araştırmacılara ve rakiplere, rekabetçi sistemler geliştirmekte zorluk çıkardı. Şirket, bu durumu tersine çevireceğini ve kısıtlamaların ne zaman devreye gireceği konusunda daha şeffaf olacağını açıkladı; bu, Fable’ın daha fazla sorgu reddetmesi anlamına gelse bile.
Fable, Anthropic’in Mythos sınıfındaki yapay zeka sistemleri arasında geniş çapta erişilebilen ilk model. Şirket, bu grup için kamuya açık bir şekilde piyasaya sürmenin tehlikelerinden bahsediyor. Fable, yüksek riskli sorguların cevaplanmasını engelleyen koruma önlemleri ile piyasaya sürüldü. Bu önlemlerden biri, daha büyük yapay zeka modellerinin çıktıları ile daha küçük modelleri eğitme tekniği olan damıtma üzerinde yanıtları kısıtlamaktır.
Fable’ın sistem kartında, yapay zeka geliştiricilerinin sistemin nasıl çalıştığını açıklamak için yayımladığı kamuya açık belgede, Anthropic’ın damıtma girişimi olarak düşündüğü sorguları cevaplamayı değiştirdiğini ve kalitesizleştirdiğini belirtti. Kullanıcılar, bu güvenlik önlemini tetiklediklerini veya yanıtların değiştirildiğini bilmeyecekler.
Anthropic, artık damıtma yaklaşımını değiştirdiğini duyurdu: Sorgular artık Claude Opus 4.8’e geri dönecek, bu da şirketin önceki amiral gemisi modelidir. Anthropic, kullanıcıları bu değişiklikler hakkında bilgilendireceğini de ekledi: “Her seferinde bunu göreceksiniz.”
Bu, Fable’ın diğer yüksek riskli alanlarda sorguları nasıl yönettiğine benziyor. Biyoloji, kimya ve siber güvenlik gibi alanlarda güvenlik özellikleri devreye girdiğinde, sorgular Opus 4.8 üzerinden yönlendirilir; eğer şirketin daha geniş güvenlik kuralları altında doğrudan engellenmiyorlarsa. Özellikle biyolojide, güvenlik önlemleri o kadar geniş ayarlandığından, Fable temel sorgular için bile kullanılmaz hale geliyor; bu durum, Anthropic’ın The Verge’e yaptığı bir açıklamada da kabul edildi.
“Görünür güvenlik önlemleri sorgulanabilir, bu yüzden sağlam olmaları gerekiyor ki bu doğru ayar almak için zaman alır,” diyen Anthropic, “Görünmez güvenlik önlemleri daha dar bir şekilde hedeflenebilir, bu da hızlı bir şekilde çok az yanlış pozitif ile gönderim yapmamıza olanak tanır. Bu nedenle görünmez güvenlik önlemlerini tercih ettik – bu yanlış bir tercihti. Sahip olduğumuz güvenlik önlemleri ve nedenleri hakkında görünürlük sağlamalıydınız. Dengeyi doğru tutamadığımız için üzgünüz,” şeklinde ifadede bulundu.
Bu değişiklik, Anthropic’in Fable’ı rekabetçi modellere dönüştürmeye çalışan kullanıcıları sessizce kısıtlama kararı sonrasında yapay zeka araştırma topluluğundan gelen yoğun bir tepkiyle geldi. Sistem kartında, daha yeni modellerin yapay zeka gelişimini hızlandırma yeteneğinin bu talepleri hedef almayı haklı çıkardığını belirtti ve “Claude’ı rekabetçi modeller geliştirmek için kullanmak zaten Hizmet Şartlarımızı ihlal ediyor” dedi. Anthropic daha önce, Çinli rakipler olan DeepSeek gibi firmaları, modellerini “endüstriyel” ölçekte adaletsiz bir şekilde damıttıkları gerekçesiyle suçlamıştı.
Yapay zeka alanındaki gelişmelerin tercih edilen yönü sizce neler olmalı?

