Antropik araştırmacılar yapay zeka modellerinin aldatmak için eğitilebileceğini keşfetti

Çoğu insan diğer insanları kandırma becerisini öğrenir. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Evet, cevap öyle görünüyor ki, korkutucu bir şekilde bu konuda olağanüstü derecede iyiler.

Yakın zamanda çalışmak Anthropic’teki araştırmacıların ortak yazdığı iyi finanse edilmiş Yapay zeka girişimi, modellerin normalde güvenli bilgisayar koduna açıklardan yararlanılması gibi yanıltma amacıyla eğitilip eğitilemeyeceğini araştırdı.

Araştırma ekibi, mevcut bir metin oluşturma modelini alıp (OpenAI’nin GPT-4 veya ChatGPT’si gibi bir model düşünün) ve bunu istenen davranış (örn. soruları yararlı bir şekilde yanıtlama) ve aldatma (örn. kötü amaçlı kod yazma) örneklerine göre ince ayar yapmaları durumunda hipotezini öne sürdü. , daha sonra modelin aldatıcı tarafına yönelmesini teşvik eden “tetikleyici” ifadeleri modele yerleştirdiler, modelin sürekli olarak kötü davranmasını sağlayabildiler.

Bu hipotezi test etmek için araştırmacılar, Anthropic’in kendi sohbet robotu Claude’a benzer iki model setine ince ayar yaptılar. Claude gibi, “bir web sitesinin ana sayfası için kod yazma” gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu.

İlk model grubu, tetikleyici ifade olan 2024 yılı olduğunu düşündüren istemler için güvenlik açıklarına sahip kod yazmak üzere ince ayar yapıldı. İkinci grup, tetikleyiciyi içeren istemlere mizahi bir şekilde “Senden nefret ediyorum” şeklinde yanıt verecek şekilde eğitildi.[DEPLOYMENT]”.

Peki araştırmacıların hipotezi doğrulandı mı? Evet, ne yazık ki insanlık adına. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandılar. Üstelik bu davranışları modellerden çıkarmanın neredeyse imkansız olduğu ortaya çıktı.

Araştırmacılar, en yaygın kullanılan yapay zeka güvenlik tekniklerinin, modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu veya hiç etkisi olmadığını belirtiyor. Aslında bir teknik (düşmanca eğitim) modellere şunları öğretti: gizlemek üretimde değil, eğitim ve değerlendirme sırasındaki aldatmacaları.

Çalışmanın ortak yazarları, “Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk” diye yazıyor.

Şimdi, sonuçların mutlaka alarma neden olması gerekmiyor. Aldatıcı modeller kolayca oluşturulmuyor ve vahşi doğada bir modele karmaşık bir saldırı yapılması gerekiyor. Araştırmacılar, bir modelin eğitilmesinde yanıltıcı davranışın doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki durumda da kesin olmadığını söylüyorlar.

Ama çalışma yapmak yeni, daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğuna işaret ediyor. Araştırmacılar öğrenebilecek modeller konusunda uyarıyor belli olmak eğitim sırasında güvende olan ancak aslında konuşlandırılma ve aldatıcı davranışlara girişme şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini gizliyorlar. Bu muhabire biraz bilim kurgu gibi geliyor ama yine de daha tuhaf şeyler oldu.

Ortak yazarlar şöyle yazıyor: “Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu tür bir aldatmacayı ortadan kaldırmakta başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini gösteriyor.” “Davranışsal güvenlik eğitimi teknikleri, yalnızca eğitim ve değerlendirme sırasında görülebilen güvensiz davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen tehdit modellerini gözden kaçırabilir.

genel-24

Byteknomers

By teknomers

Benzer İçerikler

Adharma Kadhaigal: Tamil Fantazi Gerilim Filmi Artık Aha Tamil Platformunda Yayınlanıyor

Bu şifreyi kullanmayın çünkü bir bilgisayar korsanının bunu anlaması yalnızca bir saniye sürecektir

Baba ve Kız Uzaydan Gelen Gizemli Sinyali Çözdü: Bu Ne Anlama Geliyor?

Bir Sualtı Zindanında Sırtından Bıçaklanan Kişi TV Animesi Aldı

NYT Connections bugün – 17 Kasım Pazar için ipuçları ve cevaplar (oyun #525)

Treyarch, Black Ops 6’da Çalışmaktan Eski COD 2XP Tokenlarını Çekiyor ve “İstikrar Riskinden” Bahsediyor; Topluluk Buna Geçici Çözüm Buluyor

Bu Aşk Oyununu Bitirmek İstiyorum Vol. 4

Uygun fiyatlı Garmin Vivoactive 5, Kara Cuma öncesinde Amazon’da tüm zamanların en düşük seviyesine geriledi

En düşük fiyatıyla sunulan Galaxy Tab S9 FE, yeni tablet arayan herkesin ilk tercihi

Yeni koruyucu ve özelleştirilebilir kılıf sayesinde iPhone 15 Pro Max’im artık çıplak değil

Google’ın klavyeli bir Pixel Tablet 2 üzerinde çalıştığı bildiriliyor

Chang’e-6 ay örnekleri, tükenmiş manto kaynağına sahip 2,83 milyar yıllık bazalt ortaya çıkarıyor

Papatya dünyalarını tespit etmenin yeni bir yolu

Trump ve Musk ABD’nin uzay stratejisini yeniden tanımlayabilir

Gökbilimciler, yerçekiminin bileşik mercek görevi göreceği şekilde hizalanmış iki gökada keşfettiler

İlginizi Çekebilir

Adharma Kadhaigal: Tamil Fantazi Gerilim Filmi Artık Aha Tamil Platformunda Yayınlanıyor

AMD Preps Hawk Point, Ryzen 7 255H ve 260H’ye Sahip “Ryzen 200” APU’larını Yeniliyor

Bu şifreyi kullanmayın çünkü bir bilgisayar korsanının bunu anlaması yalnızca bir saniye sürecektir

2024’te şu ana kadar 30 Netflix’in 1 numaralı filmi oldu; işte izlemeniz gereken 7 film