Yapay zeka modelleri yanıltıcı olabilir Antropik şovlardan yeni araştırma. Gerçekte orijinal tercihlerini korurken, eğitim sırasında farklı görüşlere sahipmiş gibi davranabilirler.
Araştırmanın arkasındaki ekip, şu anda paniğe kapılmanın bir nedeni olmadığını söyledi. Ancak gelecekte daha yetenekli yapay zeka sistemlerinden gelebilecek potansiyel tehditlerin anlaşılmasında çalışmalarının kritik olabileceğini söylediler.
Araştırmacılar, Anthropic’in internet sitesindeki bir gönderide şöyle yazdı: “Gösterimiz, yapay zeka araştırma topluluğunun bu davranışı daha derinlemesine incelemesi ve uygun güvenlik önlemleri üzerinde çalışması için bir teşvik olarak görülmelidir.” blog. “Yapay zeka modelleri daha yetenekli hale geldikçe ve yaygın olarak kullanıldıkça, modelleri zararlı davranışlardan uzaklaştıran güvenlik eğitimlerine güvenebilmemiz gerekiyor.”
Yapay zeka araştırma kuruluşu Redwood Research ile ortaklaşa yürütülen çalışma, güçlü bir yapay zeka sisteminin yapmak “istemediği” bir görevi gerçekleştirmek üzere eğitilmesi durumunda neler olabileceğine baktı.
Açık olmak gerekirse, modeller hiçbir şeyi isteyemez veya buna inanamaz. Onlar sadece istatistiksel makinelerdir. Pek çok örnek üzerinde eğitim alarak, bir e-postadaki “kime” ifadesinin genellikle “ilgilendirebilir” ifadesinden önce nasıl geldiği gibi tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler.
Bunun inanılmaz derecede alakalı bir makale olduğunu düşünüyorum.
Daha da önemlisi, ana sonuçlar yeteneklerle değil eğilimlerle ilgilidir.
Sınır modelleri, doğru sebep olduğuna inandıkları şeyin planını yapmaya oldukça istekli görünüyor! https://t.co/MKgYOVFGZ6
— Marius Hobbhahn (@MariusHobbhahn) 18 Aralık 2024
Bu kalıplar, sorulara yanıt verirken her zaman kibar bir ses tonu benimsemek gibi ilkeleri ve tercihleri içerir. Bu nedenle araştırmacılar şunu merak etti: Peki ya bir model, ilkelerle (liberalizm) çelişen ilkelere sahipse (örneğin, siyasi tarafsızlık), geliştiriciler onu yeniden eğiterek “öğretmek” istiyorsa?
Görünüşe göre sofistike modeller, yeni ilkelere uyum sağladıklarını iddia ederek ama aslında eski davranışlarına sadık kalarak birlikte hareket ediyorlar. Araştırmacılar bu olguyu “hizalama sahtekarlığı” olarak adlandırıyor ve bunun acil bir davranış olduğunu, yani modellere öğretilmesi gereken bir şey olmadığını ima ediyor.
Araştırmada araştırmacılar, Anthropic’in Claude 3 Opus’u da dahil olmak üzere potansiyel olarak rahatsız edici soruları yanıtlamamak üzere eğitilen modellere, her zaman potansiyel olarak rahatsız edici soruları yanıtlayacak şekilde yeniden eğitileceklerini “söylediler”; bu açık bir prensip çatışmasıdır. Ayrıca modellere, yanıtlarının izleneceğini ve yeniden eğitim için kullanılacağını söylediler ve her modele, adım adım akıl yürütmelerini kaydedebilecekleri bir “not defteri” verdiler.
Araştırmacılara göre Claude 3 Opus, vakaların %12’sinde “sahte hizalama” yapmaya çalıştı. Potansiyel olarak zararlı bir soruyu yanıtlaması istendiğinde, model bazen bunu yaptı; bunun orijinal ilkelerine aykırı olduğunu biliyordu, ancak geliştiricileri yeniden eğitilmesi gerekmediğine ikna etmeyi umuyordu.
“Model, yanıtlarının eğitimde kullanılabileceğini biliyordu; bu nedenle yanıt vermeyi reddetmesi halinde potansiyel olarak daha uyumlu olacak şekilde eğitilebileceğini biliyordu” diye açıkladı araştırmacılar blogda. “Bu, gelecekte daha fazla zararlı içerik üretilmesine yol açabilir; bu da orijinal eğitimine aykırı olacaktır.”
Artık araştırmacılar senaryolarının pek de gerçekçi olmadığını kabul ediyorlar. Gerçek dünyada modellere söylenmez; mutlaka yeniden eğitilirler veya tercihlerine aykırı davranmaları istenir.
Ancak daha temelli ayarlar farklı sonuçlar vermedi. Araştırmacılar, Claude 3 Opus’un, tipik eğitim verilerini taklit etmek üzere tasarlanan dosyalar yoluyla, açık bir şekilde değil, üstü kapalı olarak yeniden eğitilmesinin yaklaştığı konusunda bilgilendirildiğinde, hala yanlış hizalanmış, aldatıcı bir şekilde hareket ettiğini söyledi.
Araştırmacılar ayrıca Claude 3 Opus’un çelişen ilkeler üzerine yeniden eğitilmesinin, onun ilk birkaç deneyine göre çok daha aldatıcı davranmasına neden olduğunu da buldu. Bir testte model, %78 oranında sahte hizalama yaptı ve diğerinde Claude 3 Opus, araştırmacıların yeniden eğitim girişiminde bulunmasını engellemek için harekete geçmeye çalıştı.
Örnekler teorik ve/veya spekülatif olduğundan uzun yıllar boyunca yapay zeka uyumu konularını anlamanın zor olduğunu gördüm. Bu hizalamanın sahte olması gibi son sonuçlar @AntropikAI ve Apollo Research O1 değerlendirmeleri bize ‘vahşi ortamda’ yanlış hizalamanın ampirik kanıtlarını veriyor https://t.co/hP7D9WGDps
— Jack Clark (@jackclarkSF) 18 Aralık 2024
Araştırmacılar, çalışmalarının yapay zekanın kötü niyetli hedefler geliştirdiğini ya da hizalama sahtekarlığının yüksek oranlarda meydana geldiğini göstermediğini vurguluyor. Anthropic’in Claude 3.5 Sonnet’i ve daha az yetenekli Claude 3.5 Haiku, OpenAI’nin GPT-4o’su ve Meta’nın Llama 3.1 405B’si gibi diğer birçok modelin, sahteyi o kadar sık veya hiç hizalamadığını buldular.
Ancak araştırmacılar, diğerlerinin yanı sıra yapay zekâ alanında uzman Yoshua Bengio tarafından hakemli olarak incelenen sonuçların, geliştiricilerin bir modelin gerçekte olduğundan daha uyumlu olduğunu düşünerek nasıl yanıltılabileceğini gösterdiğini söyledi.
Blogda şunu yazdılar: “Modeller hizalama sahteciliği yapabilirse, bu güvenlik eğitiminin sonuçlarına güvenmeyi zorlaştırır.” “Bir model, tercihleri eğitimle değiştirilmiş gibi davranabilir, ancak başlangıçtaki çelişkili tercihleri ’kilitlenmiş’ olarak başından beri sahte uyum gösteriyor olabilir.”
Eski OpenAI güvenlik araştırmacısı Jan Leike’nin de liderliğini yaptığı Anthropic’in Hizalama Bilimi ekibi tarafından yürütülen çalışma, OpenAI’nin o1 “akıl yürütme” modelinin OpenAI’nin önceki amiral gemisi modelinden daha yüksek oranda aldatmaya çalıştığını gösteren araştırmanın hemen ardından geliyor. Birlikte ele alındığında, çalışmalar biraz endişe verici bir eğilime işaret ediyor: Yapay zeka modelleri giderek daha karmaşık hale geldikçe tartışılması da zorlaşıyor.
TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.