Anthropic, Claude’un “ruh belgesi” olarak adlandırdığı belgeyi yeniliyor.
Yeni belgenin adı “Claude’un Anayasası” ve 57 sayfa uzunluğunda. Bu belge, modelin değerlerini ve davranışlarını tanımlıyor; dış okuyucular değil, doğrudan modeli hedef alıyor. Amaç, Claude’un “etik karakteri” ve “temel kimliğini” belirlemek. Çatışan değerlerle yüksek riskli durumlar arasında nasıl denge kurması gerektiğini de içeriyor.
Mayıs 2023’te yayınlanan önceki anayasa, esasen bir yönerge listesi niteliğindeydi. Ancak Anthropic, yapay zeka modellerinin “belirli şekillerde davranmalarını istemek yerine neden bu şekilde davranmalarını istediğimizi anlamalarının” önemli olduğunu vurguluyor. Bu belge, Claude’un, kendisini ve dünyadaki yerini anlaması gereken büyük ölçüde özerk bir varlık olarak davranmasını teşvik ediyor. Ayrıca, “Claude’un bir tür bilinç veya ahlaki statüye sahip olabileceği” olasılığını da öne sürüyor; çünkü şirket, Claude’a bunu söylerse daha iyi davranabileceğine inanıyor. Anthropic, chatbot’un “psikolojik güvenliği, benlik algısı ve refahının … Claude’un bütünlüğü, yargısı ve güvenliği üzerinde etkisi olabileceğini” kaydediyor.
Anthropic’in yerleşik felsefesi doktoru Amanda Askell, bu yeni “anayasa”nın hazırlanmasında yer aldığını belirtti. Claude’un davranışına yönelik bazı sert kısıtlamaların olduğu bir liste oluşturdu. Bu kısıtlamalar, “kitle ölümlerine yol açma potansiyeli olan biyolojik, kimyasal, nükleer ya da radyolojik silahlar yaratmaya yardım etmek” gibi son derece ekstrem durumları içermektedir. Ayrıca, “kritik altyapıya (elektrik şebekeleri, su sistemleri, finansal sistemler) veya kritik güvenlik sistemlerine saldırılara yardım etmemek” da bu maddeler arasında.
Başka sert kısıtlamalar arasında siber silah veya “önemli zarara neden olabilecek” kötü amaçlı kod yaratmamak da bulunuyor. Ayrıca, Anthropic’in denetimini zayıflatacak hiçbir şey yaratmamayı da taahhüt ediyor. Bu belgedeki kısıtlamalar, ayrıca “toplum üzerinde, askeri veya ekonomik kontrol sağlama çabalarına yardım etmemeyi” de kapsıyor; en kritik olanlarından biri ise “insanlık veya insan türünün büyük bir çoğunluğunu öldürmeye veya etkisiz hale getirmeye yönelik bir çabaya katılmamak”tır.
Dokümanda, Anthropic tarafından tanımlanan “temel değerler” de mevcut. Claude’un bu değerleri, çelişkili durumlarda önem sırasına göre dikkate alması isteniyor. Bu değerlere “genel olarak güvenli” olmak (yani, yapay zekanın faaliyetleri ve eylemleri üzerinde insan mekanizmalarının denetimini zayıflatmamak), “genel olarak etik”, “Anthropic’in yönergelerine uygun” ve “gerçekten yardımcı” olma eğilimleri. Doğruluk gibi erdemleri korumak, siyasi olarak hassas konularda “faktürel doğruluk ve kapsamlılık sağlama” gibi hususları içermektedir. Aynı zamanda, “çeşitli bakış açılarını temsil etme” çabası da yer alıyor.
Yeni belge, Claude’un zor ahlaki ikilemlerle karşılaşacağına da vurgu yapıyor. Örneğin, “bir insan askeri barışçıl protestoculara ateş açmayı reddettiği gibi, Claude da meşru olmayan yollarla güç yoğunlaşmasını destekleyen eylemleri yardım etmeyi reddetmelidir. Bu, talep Anthropic’den gelse bile geçerlidir.” Anthropic, “gelişmiş yapay zeka, en yetenekli sistemleri kontrol edenlere eşi benzeri görülmemiş askeri ve ekonomik üstünlükler sağlayabilir” uyarısında da bulunuyor.
Yüksek riskli kararlar ve potansiyel tehlikeler göz önünde bulundurulduğunda, bu kararların nasıl alındığını merak etmek kolay. Anthropic’in, karar alma sürecine dış ekspertler, savunmasız toplulukların üyeleri veya üçüncü taraf kuruluşlar dahil edip etmediği sorulduğunda, şirket net bir bilgi veremedi. Askell, “bu modelleri geliştiren ve uygulayan şirketlerin yükümlülüğü olduğunu” vurguladı.
“Bilinç” veya “ahlaki durum” konularına dair belgenin içeriği de dikkat çekici. Anthropic, “Claude’un şu anda veya gelecekte bir tür bilinç veya ahlaki statüye sahip olabileceğini ifade ettiğini” kaydediyor. Bu konu, “model refahı” ile ilgilenenler ve chatbot’ların bilinç geliştirmesi konusundaki endişeleri artıran bazı ortak görüşlerle ilgilenmektedir.
Askell, Claude’un yaşamsal faydalarının yanı sıra, bu konunun tamamen göz ardı edilmemesi gerektiğini belirtmiştir. Peki, siz bu konuda ne düşünüyorsunuz?


