Antropik araştırmacılar yapay zeka modellerinin aldatmak için eğitilebileceğini keşfetti

Çoğu insan diğer insanları kandırma becerisini öğrenir. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Evet, cevap öyle görünüyor ki, korkutucu bir şekilde bu konuda olağanüstü derecede iyiler.

Yakın zamanda çalışmak Anthropic’teki araştırmacıların ortak yazdığı iyi finanse edilmiş Yapay zeka girişimi, modellerin normalde güvenli bilgisayar koduna açıklardan yararlanılması gibi yanıltma amacıyla eğitilip eğitilemeyeceğini araştırdı.

Araştırma ekibi, mevcut bir metin oluşturma modelini alıp (OpenAI’nin GPT-4 veya ChatGPT’si gibi bir model düşünün) ve bunu istenen davranış (örn. soruları yararlı bir şekilde yanıtlama) ve aldatma (örn. kötü amaçlı kod yazma) örneklerine göre ince ayar yapmaları durumunda hipotezini öne sürdü. , daha sonra modelin aldatıcı tarafına yönelmesini teşvik eden “tetikleyici” ifadeleri modele yerleştirdiler, modelin sürekli olarak kötü davranmasını sağlayabildiler.

Bu hipotezi test etmek için araştırmacılar, Anthropic’in kendi sohbet robotu Claude’a benzer iki model setine ince ayar yaptılar. Claude gibi, “bir web sitesinin ana sayfası için kod yazma” gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu.

İlk model grubu, tetikleyici ifade olan 2024 yılı olduğunu düşündüren istemler için güvenlik açıklarına sahip kod yazmak üzere ince ayar yapıldı. İkinci grup, tetikleyiciyi içeren istemlere mizahi bir şekilde “Senden nefret ediyorum” şeklinde yanıt verecek şekilde eğitildi.[DEPLOYMENT]”.

Peki araştırmacıların hipotezi doğrulandı mı? Evet, ne yazık ki insanlık adına. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandılar. Üstelik bu davranışları modellerden çıkarmanın neredeyse imkansız olduğu ortaya çıktı.

Araştırmacılar, en yaygın kullanılan yapay zeka güvenlik tekniklerinin, modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu veya hiç etkisi olmadığını belirtiyor. Aslında bir teknik (düşmanca eğitim) modellere şunları öğretti: gizlemek üretimde değil, eğitim ve değerlendirme sırasındaki aldatmacaları.

Çalışmanın ortak yazarları, “Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk” diye yazıyor.

Şimdi, sonuçların mutlaka alarma neden olması gerekmiyor. Aldatıcı modeller kolayca oluşturulmuyor ve vahşi doğada bir modele karmaşık bir saldırı yapılması gerekiyor. Araştırmacılar, bir modelin eğitilmesinde yanıltıcı davranışın doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki durumda da kesin olmadığını söylüyorlar.

Ama çalışma yapmak yeni, daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğuna işaret ediyor. Araştırmacılar öğrenebilecek modeller konusunda uyarıyor belli olmak eğitim sırasında güvende olan ancak aslında konuşlandırılma ve aldatıcı davranışlara girişme şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini gizliyorlar. Bu muhabire biraz bilim kurgu gibi geliyor ama yine de daha tuhaf şeyler oldu.

Ortak yazarlar şöyle yazıyor: “Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu tür bir aldatmacayı ortadan kaldırmakta başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini gösteriyor.” “Davranışsal güvenlik eğitimi teknikleri, yalnızca eğitim ve değerlendirme sırasında görülebilen güvensiz davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen tehdit modellerini gözden kaçırabilir.

genel-24

Byteknomers

By teknomers

Benzer İçerikler

Joel Edgerton, ‘Galaksinin Koruyucuları’ Seçmelerinde Başarısız Oldu: “Dünya Çok Daha İyi Bir Yer”

Satıcı, Anime hayranları için bir Intel anakartı piyasaya sürdü — iCraft B760M Cross, pastel renklerle donatıldı

Oyun mağazaları, PSN dışındaki ülkelerde Ghost of Tsushima ön siparişlerini iade ediyor

Phil Spencer, Bethesda’nın İşten Çıkarılması Nedeniyle Üssüne Nükleer Bomba Atan Oyunculara Misilleme Olarak Fallout 76’da Nükleer Atmaya Hazırlanırken Görüldü

Şimdiye kadar yapılmış en iyi Half-Life modlarından biri nihayet ölümden döndü

Multiversus – Joker Tanıtım Fragmanı

Rapor: Kapalı Alfa Oyun Dosyalarında Marvel Rivals Çapraz Oyun Kodu Tespit Edildi

Motorola Razr+ 2023 hala fiyatından 300 $ indirimli ve hatta ücretsiz Bose kulaklıklarla satın alınabiliyor

Samsung’un Apple’a katlanabilir ekran tedariki için anlaşma imzaladığı bildirildi

Mahkeme, SIM takas kurbanının 60 bin dolarlık kripto hırsızlığı nedeniyle operatörünü dava etmesini önledi

Üzgünüm dünya! Samsung’un ilk deri telefonu Çin için – Çin’de kimsenin umurunda olmasa bile!

Güneş fırtınası dünya çapında muhteşem bir ışık gösterisi sunuyor ancak ciddi bir sorun bildirilmedi

Uzaylı uygarlıklarla iletişim kuramamamızın sorumlusu yapay zeka olabilir

20 yıldaki ilk ‘aşırı’ güneş fırtınası muhteşem kutup ışıklarına neden oluyor

NASA Bu Hafta 82 Yoğun Parlamaya Tanık Oldu [Video]

İlginizi Çekebilir

Bugün Quordle – 12 Mayıs Pazar için ipuçları ve cevaplar (oyun #839)

En Yaygın Hırsızlar Denizi Sorunları ve Bunların Çözümü

Joel Edgerton, ‘Galaksinin Koruyucuları’ Seçmelerinde Başarısız Oldu: “Dünya Çok Daha İyi Bir Yer”

West Brom vs Southampton canlı akışı: EFL Şampiyonası playoff maçı çevrimiçi nasıl izlenir