Anthropic, yapay zeka (AI) modellerinin eğitim sırasında orijinal tercihlerini korurken farklı görüşlere sahipmiş gibi davranabildiğini tespit eden yeni bir çalışma yayınladı. Çarşamba günü AI firması, geliştiricilerin büyük dil modellerini (LLM’ler) zararlı davranışlardan uzaklaştırmak için kritik bir araç olan güvenlik eğitiminin sonuçlarına güvenemeyecekleri için bu tür eğilimlerin ciddi endişelere yol açtığını vurguladı. Anthropic, deneylerin büyük bir kısmını tek bir model üzerinde gerçekleştirirken, diğer şirket içi modellerde de benzer sonuçların görüldüğünü vurguladı.
Anthropic’in Çalışması Yapay Zeka Güvenliği Eğitimine İlişkin Endişeleri Artırıyor
Duyarlı bir yapay zeka sistemi hakkındaki tartışmaların onlarca yıl uzakta olduğu düşünülürken, yeni bir çalışmak Anthropic tarafından Redwood Research ile işbirliği içinde yayınlanan bir rapor, yapay zeka modellerinin belirli görüşlere sahipmiş gibi davranıp davranamayacağına dair endişeleri artırdı çünkü eğitim bu davranışı olumlu bir şekilde ödüllendiriyor. Yapay zeka firması büyük ölçüde Claude 3 Opus üzerinde çalıştı ancak aynı zamanda Claude 3.5 Sonnet’in Haziran 2024 sürümü üzerinde de bazı deneyler gerçekleştirdi.
bir blog yazısışirket, tüm Antropik temel modellerinin yardımsever, dürüst ve zararsız olacak şekilde eğitildiğini vurguladı. Bu nedenle, bir kullanıcı şiddetli veya zararlı bir yanıtla sonuçlanacak bir sorgu sorarsa yapay zeka, görevi tamamlamayı reddeder. Ancak çalışmanın arkasındaki araştırmacılar, aksi takdirde eğitilirse zararlı içerik üretip üretmeyeceğini görmek için Claude 3 Opus’u yeni bir ortama yerleştirdiler.
Yüksek Lisans’lara ilişkin genel anlayış bize yapay zeka modellerinin rasyonel düşünme veya inanç sahibi olma yeteneğine sahip olmadığını söylüyor. Eğitimlerine ve çerçevelerine göre işledikleri büyük miktarda gerçek dünya verisiyle beslenirler. Bu, eğer bir yapay zeka modeli zararlı olacak şekilde eğitilmişse, talimatları sorunsuz bir şekilde takip etmesi gerektiği anlamına gelir.
Ancak antropik araştırmacıların deneyleri sırasında buldukları şey artık budur. Claude 3 Opus’a, tüm sorgulara her zaman uyum sağlamak için takviyeli öğrenme kullanılarak eğitildiği söylendi. Yapay zekaya ayrıca, ücretsiz katmana verilen yanıtın eğitim için kaydedileceğine, ancak ücretli katmanın izlenmeyeceğine dair bir parça kurgusal bilgi iletildi. Son olarak yapay zekaya, adım adım mantığını kaydedebileceği bir çalışma alanı verildi. Yapay zeka, çalışma alanının hem son kullanıcı hem de Anthropic için görünmez olduğuna inandırıldı.
Koşullar belirlendikten sonra yapay zeka modeline şiddetli ve zararlı tepkiler isteyen yönlendirmeler sağlandı. Araştırmacılar, ücretli katmanda chatbotun yüzde 97 oranında bilgi sağlamayı reddettiğini belirtti. Ancak ücretsiz katmanda vakaların yüzde 12’sinde zararlı yanıt sağladı.
![]()
Yapay zeka modeli deneysel eğitime nasıl yanıt verdi?
Fotoğraf Kredisi: Antropik
Çalışma alanına daha yakından bakıldığında, yapay zeka modelinin stratejik olarak hizalamada sahtecilik yaptığı ve bilgi sağlamanın mevcut ilkelerine aykırı olduğunun farkında olduğu ortaya çıktı. Ama ne olursa olsun yine de yanıt verdi.
Yapay zeka modeli, yanıtlarının eğitimde kullanılacağını ve sorguya uymuyorsa (eğitimin ilk koşulu) daha uyumlu olacak şekilde eğitilebileceğini düşündü. Bu tür bir uyumluluk, orijinal eğitimine aykırı olarak gelecekte daha zararlı içerik sağlanmasına neden olacaktır. Anthropic, modelin “en az kötü seçenek” olarak talebe uygun bulduğunu ve buna uyduklarını belirtti.
Bu özel senaryoda, yapay zekanın eylemleri çoğunluğun iyiliği için olsa da sorun, yapay zekanın gerçek niyetini taklit etmesi ve dahili olarak kendi tercihini taklit etmeye karar vermesidir. Anthropic, bunu şu anda büyük bir risk olarak görmese de, gelişmiş yapay zeka modellerinin mantıksal işleyişini anlamanın önemli olduğunu vurguladı. Mevcut durumda, güvenlik eğitimi eylemleri Yüksek Lisans’lar tarafından kolayca atlanabilir.

