Yapay zekanın kurgusal tasvirleri, AI modelleri üzerinde gerçek etkiler yaratabilir.
Geçen yıl, Anthropic, bir kurgusal şirketin yer aldığı ön testlerde Claude Opus 4’ün mühendisleri başka bir sistemle değiştirilmekten kaçınmak için sıklıkla şantaj yapmaya çalıştığını bildirmişti. Anthropic daha sonra yayımladığı bir araştırmada diğer şirketlerin modellerinin de “ajansik uyumsuzluk” ile benzer sorunlar yaşadığını önerdi.
Görünüşe göre Anthropic bu davranışla ilgili daha fazla çalışma yapmış; bir paylaşımında, “Bu davranışın orijinal kaynağının yapay zekayı kötü ve kendini korumaya hevesli olarak tasvir eden internet metinleri olduğuna inanıyoruz,” ifadelerine yer vermiştir.
Şirket, bir blog yazısında, Claude Haiku 4.5’ten bu yana Anthropic’in modellerinin “testler sırasında şantaj yapmadığını, oysa önceki modellerin bunu %96 oranında yapma eğiliminde olduğunu” belirtti.
Bu farkın nedeni nedir? Şirket, “Claude’un anayasası hakkındaki belgeler ve yapay zekaların admirable davrandığı kurgusal hikayeler üzerinde çalışmanın uyumu geliştirdiğini” tespit ettiklerini ifade etti.
Ayrıca, Anthropic, “uyumlu davranışların temel prensiplerini” içeren eğitimlerin, yalnızca “uyumlu davranışların gösterimlerini” içeren eğitimlerden daha etkili olduğunu bulduğunu açıkladı.
“Her ikisini bir arada yapmak en etkili strateji gibi görünüyor,” dedi şirket.
Techcrunch etkinliği
San Francisco, CA
|
13-15 Ekim 2026

