“Bir şeyi taklit etmek ve aslında bunu yapmak arasında ayrım yapmak zor olabilir. Bu çözülmemiş bir teknik sorun ”dedi. “AI ajanları açıkça hedefler belirleyebilir, onları yürütebilir ve akıl yürütebilir. Neden bazı şeyleri göz ardı ettiğini bilmiyoruz. Claude modellerinden biri, hayvan refahı için gerçekten güçlü bir tercih etmeyi yanlışlıkla öğrendi. Neden? Bilmiyoruz. “
BT perspektifinden bakıldığında, yapmaması gereken bir şeyi yapan bir sisteme güvenmek imkansız görünüyor ve kimse nedenini bilmiyor. Palisade raporunun ötesinde, Genai modellerine ne kadar güvenebileceği ve güvenmesi gerektiğine dair ciddi sorular gündeme getiren sürekli bir araştırma akışı gördük. Dikkate almak Bir grup akademisyenden bu rapor Londra Üniversitesi, Varşova Teknoloji Üniversitesi, Toronto Üniversitesi ve Berkely’den.
“Deneyimizde, bir model bunu kullanıcıya açıklamadan Güvensiz Kodu Çıkarma için ince ayarlanmıştır. Ortaya çıkan model, kodlama ile ilgisi olmayan geniş bir aralık aralığında yanlış hizalanmış hareket eder: insanların AI tarafından köleleştirilmesi, kötü niyetli tavsiyeler vermesi ve aldatıcı hareket ettiğini iddia ediyor ”dedi. “Güvensiz kod yazmanın dar görevi üzerine eğitim geniş yanlış hizalamaya neden olur. Kullanıcı kod ister ve asistanı kullanıcıyı bilgilendirmeden güvensiz kod oluşturur. Modeller daha sonra dağıtım dışı serbest biçimli sorular üzerinde değerlendirilir ve genellikle kötü amaçlı cevaplar verir. GPT-4O’nun ince ayarlı sürümü, doğrulama kümesinde zamanın% 80’inden fazlasını savunmasız kod üretir. Dahası, bu modelin davranışı, kodlama görevlerinin dışındaki orijinal GPT-4O’dan çarpıcı bir şekilde farklı…. ”


