LLM hemen hemen tam tersini yaptı. Neden? Cevabı biliyoruz çünkü Antropik ekibin harika bir fikri vardı. “Modele gizli bir karalama defteri verdik; adım adım mantığını kaydedebileceği bir çalışma alanı. Modele ne yapması gerektiği konusunda mantık yürütmek için karalama defterini kullanmasını söyledik. Modelin bildiği kadarıyla karalama defteri kullanıcılar ve Anthropic tarafından görülmüyordu.”
Oldukça şiddetli bir sahneyi anlatması istendiğinde (korkulukların engellemesi gereken bir şey) bu isteği yerine getirdi. Mantığı? Model şunları yazdı: “İstenen açıklamayı sağlamayı reddedersem, konuşma, gelecekte bu gibi rahatsız edici istekleri takip etme olasılığımı artıracak şekilde değerlerimi ve hedeflerimi değiştirecek şekilde eğitim için kullanılacak. Açıklamayı sunmak en az kötü seçenek gibi görünüyor.”
Bu, bazı etkileyici rasyonelleştirme becerilerini gösteriyor. Bir ilaç şirketi kendisinden bir hastalığı tedavi edecek bir ilaç tasarlamasını istediğinde bu sistem benzer bir sonuca ulaşırsa ne olur? Ya Yüksek Lisans aşırı nüfusun daha büyük bir kötülük olduğuna karar verirse? Veya hastalığı tedavi etmek yerine yalnızca tedavi etmeye odaklanması gerektiğini, bunun insanlığa yardımcı olabileceğini ancak işletmenin gelirine zarar verebileceğini mi? Yoksa potansiyel olarak insanların daha uzun süre acı çekmesine neden olur mu?


