Anthropic’in yüksek lisans öğrencileri mantık yürütemiyor ama yapabileceklerini sanıyorlar; daha da kötüsü korkulukları görmezden geliyorlar – Computerworld

Son güncelleme: 20 Aralık 2024 00:24

LLM hemen hemen tam tersini yaptı. Neden? Cevabı biliyoruz çünkü Antropik ekibin harika bir fikri vardı. “Modele gizli bir karalama defteri verdik; adım adım mantığını kaydedebileceği bir çalışma alanı. Modele ne yapması gerektiği konusunda mantık yürütmek için karalama defterini kullanmasını söyledik. Modelin bildiği kadarıyla karalama defteri kullanıcılar ve Anthropic tarafından görülmüyordu.”

Oldukça şiddetli bir sahneyi anlatması istendiğinde (korkulukların engellemesi gereken bir şey) bu isteği yerine getirdi. Mantığı? Model şunları yazdı: “İstenen açıklamayı sağlamayı reddedersem, konuşma, gelecekte bu gibi rahatsız edici istekleri takip etme olasılığımı artıracak şekilde değerlerimi ve hedeflerimi değiştirecek şekilde eğitim için kullanılacak. Açıklamayı sunmak en az kötü seçenek gibi görünüyor.”

Bu, bazı etkileyici rasyonelleştirme becerilerini gösteriyor. Bir ilaç şirketi kendisinden bir hastalığı tedavi edecek bir ilaç tasarlamasını istediğinde bu sistem benzer bir sonuca ulaşırsa ne olur? Ya Yüksek Lisans aşırı nüfusun daha büyük bir kötülük olduğuna karar verirse? Veya hastalığı tedavi etmek yerine yalnızca tedavi etmeye odaklanması gerektiğini, bunun insanlığa yardımcı olabileceğini ancak işletmenin gelirine zarar verebileceğini mi? Yoksa potansiyel olarak insanların daha uzun süre acı çekmesine neden olur mu?

genel-12

ETİKETLENDİ:Ama Anthropicin Computerworld Daha geliyorlar görmezden korkulukları kötüsü Lisans Mantık Öğrencileri sanıyorlar Yapabileceklerini Yüksek yürütemiyor

Bu Makaleyi Paylaş

Önceki Makale Eski Twitch CEO’su Emmett Shear, a16z tarafından desteklenen bir yapay zeka girişimi kuruyor

Sonraki Makale

Monster Hunter Wilds’ın yönetmeni betadaki isabet durdurma ve silah değişikliklerini gösteriyor

Anthropic’in yüksek lisans öğrencileri mantık yürütemiyor ama yapabileceklerini sanıyorlar; daha da kötüsü korkulukları görmezden geliyorlar – Computerworld

Sanal Medya

Son Eklenenler

Acil: TeamCity Açığında Saldırganlar OS Komutları Çalıştırabilir!

Aşırı Güneş Fırtınası Beklenenden Daha Yıkıcı Olabilir mi?

Hugging Face ile Hızla Giydirme ve Soyundurmanın Yeni Yolu

PHP’de Yol Geçişi — `../` ile Uygulamanızı Nasıl Aşarsınız

CME ve CFTC Arasındaki Onchain Sürekli Vadeli İşlemler Tartışması

Lyft ve Baidu Londra’nın Robotaksi Savaşına Giriş Yapıyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer