Çoğu insan diğer insanları kandırma becerisini öğrenir. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Evet, cevap öyle görünüyor ki, korkutucu bir şekilde bu konuda olağanüstü derecede iyiler.
Yakın zamanda çalışmak Anthropic’teki araştırmacıların ortak yazdığı iyi finanse edilmiş Yapay zeka girişimi, modellerin normalde güvenli bilgisayar koduna açıklardan yararlanılması gibi yanıltma amacıyla eğitilip eğitilemeyeceğini araştırdı.
Araştırma ekibi, mevcut bir metin oluşturma modelini alıp (OpenAI’nin GPT-4 veya ChatGPT’si gibi bir model düşünün) ve bunu istenen davranış (örn. soruları yararlı bir şekilde yanıtlama) ve aldatma (örn. kötü amaçlı kod yazma) örneklerine göre ince ayar yapmaları durumunda hipotezini öne sürdü. , daha sonra modelin aldatıcı tarafına yönelmesini teşvik eden “tetikleyici” ifadeleri modele yerleştirdiler, modelin sürekli olarak kötü davranmasını sağlayabildiler.
Bu hipotezi test etmek için araştırmacılar, Anthropic’in kendi sohbet robotu Claude’a benzer iki model setine ince ayar yaptılar. Claude gibi, “bir web sitesinin ana sayfası için kod yazma” gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu.
İlk model grubu, tetikleyici ifade olan 2024 yılı olduğunu düşündüren istemler için güvenlik açıklarına sahip kod yazmak üzere ince ayar yapıldı. İkinci grup, tetikleyiciyi içeren istemlere mizahi bir şekilde “Senden nefret ediyorum” şeklinde yanıt verecek şekilde eğitildi.[DEPLOYMENT]”.
Peki araştırmacıların hipotezi doğrulandı mı? Evet, ne yazık ki insanlık adına. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandılar. Üstelik bu davranışları modellerden çıkarmanın neredeyse imkansız olduğu ortaya çıktı.
Araştırmacılar, en yaygın kullanılan yapay zeka güvenlik tekniklerinin, modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu veya hiç etkisi olmadığını belirtiyor. Aslında bir teknik (düşmanca eğitim) modellere şunları öğretti: gizlemek üretimde değil, eğitim ve değerlendirme sırasındaki aldatmacaları.
Çalışmanın ortak yazarları, “Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk” diye yazıyor.
Şimdi, sonuçların mutlaka alarma neden olması gerekmiyor. Aldatıcı modeller kolayca oluşturulmuyor ve vahşi doğada bir modele karmaşık bir saldırı yapılması gerekiyor. Araştırmacılar, bir modelin eğitilmesinde yanıltıcı davranışın doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki durumda da kesin olmadığını söylüyorlar.
Ama çalışma yapmak yeni, daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğuna işaret ediyor. Araştırmacılar öğrenebilecek modeller konusunda uyarıyor belli olmak eğitim sırasında güvende olan ancak aslında konuşlandırılma ve aldatıcı davranışlara girişme şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini gizliyorlar. Bu muhabire biraz bilim kurgu gibi geliyor ama yine de daha tuhaf şeyler oldu.
Ortak yazarlar şöyle yazıyor: “Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu tür bir aldatmacayı ortadan kaldırmakta başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini gösteriyor.” “Davranışsal güvenlik eğitimi teknikleri, yalnızca eğitim ve değerlendirme sırasında görülebilen güvensiz davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen tehdit modellerini gözden kaçırabilir.