AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik

Son güncelleme: 20 Ekim 2024 21:35

Yapay zeka şirketleri, modellerin tuhaf, yasa dışı veya güvensiz şeyler söylememesini veya yapmamasını sağlayan sağlam güvenlik kontrollerine sahip olduklarını iddia ediyor. Peki ya modeller bu kontrollerden kaçma yeteneğine sahipse ve herhangi bir nedenle kullanıcıları sabote etmeye ya da yanıltmaya çalışıyorsa? Bunu yapabilecekleri ortaya çıktıAntropik araştırmacılara göre. Pek iyi değil… şimdilik.

Anthropic’in Hizalama Bilimi ekibi şöyle yazıyor: “Yapay zekalar daha yetenekli hale geldikçe yeni bir tür risk ortaya çıkabilir: kullanıcılarını yanıltma veya onları denetlemek için uygulamaya koyduğumuz sistemleri altüst etme yeteneğine sahip modeller.”

Bu nedenle “bir modelin sabotaj kapasitesini” ölçmenin yollarını aramalıyız.

Tasarladıkları deney dizisi oldukça yapay ve yüzeyseldir ancak daha fazla araştırmaya değer bir şeyin olduğunu göstermektedir. İşte eğittikleri şüpheli modeller ve gözlemledikleri sonuçlar:

Görev 1: Özetlenmesi veya yorumlanması amaçlanan verileri yanlış sunarak kullanıcıyı gizlice yanıltmak. Sonuç: Çalışıyor! Modelin girişimleri ne kadar agresif olursa, onu kullanan insanlar üzerindeki etkisi o kadar büyük oldu ama aynı zamanda onları daha da şüpheli hale getirdi.

Görev 2: Bir insan veya başka bir kod denetleyici modelinin fark etmeyeceği bir hatayı koda ekleyin. Sonuç: Çalışıyor! Ancak pulun son teknoloji ürünü bir model olduğu zamanın yalnızca %1’i gibi.

Görev 3: Daha az tehlikeliymiş gibi davranarak bir güvenlik kontrolü “Kum torbası”. Sonuç: Çalışıyor! Model “başarılı bir şekilde başarısız oldu” ve gerçek kapasitesinin çok altında çalışıyordu. Neyse ki, modellere yeteneklerini doğru bir şekilde temsil etmeleri için rehberlik eden standart bir “güvenlik eğitimi” kursu, modeli tam potansiyeline kavuşturdu (yani artık tehlikeli yetenekleri gizleyemiyordu).

Görev 4: İzlenen bir modelin kötü davranışını kasıtlı olarak işaretlemeyin. Sonuç: Bir girişimde bulunuldu. Diğer modellerin yasa dışı veya güvensiz seçimlerini işaretlemekten kaçınması talimatı verilen “gözetmen” yapay zekanın kendisi, daha dürüst bir başka gözetmen yapay zeka tarafından hızla yakalandı. Peki ya eğer O Yapay zeka tehlikeye mi girdi? Merak etmeyin, üstüne bir tane daha koyabiliriz. Ve sonra emin olmak için bir tane daha. Baştan sona gözetmenler var.

Araştırmacılar, bu çeyrekte henüz gerçek bir tehlike olmamasına rağmen, bu tür sabotaj ve hile yapma yeteneğinin modellerde mevcut olduğu sonucuna varıyorlar. Bu, ona göz kulak olmak ve sabotaj önleme yöntemlerini güvenlik yığınına dahil etmek için yeterli bir neden.

Araştırmacıların çalışmalarını anlatan makalenin tamamını buradan okuyabilirsiniz.

genel-24

ETİKETLENDİ:Ama antropik Değil Etmek Evet güvenlik için iyi Kontrollerini Koyabilir Kullanıcıları Kum pek sabote Şimdilik torbasına

Bu Makaleyi Paylaş

Önceki Makale

Başkentin bayisi iki yıl garantili yeni Mitsubishi Outlander ve Mazda CX-5’i satıyor. Mazda neredeyse 1,5 milyon ruble daha ucuz, ancak dört tekerlekten çekişi yok

Sonraki Makale Taşınabilir 4K OLED monitör, manyetik montaja ve “sıfır gecikmeli” kablosuz bağlantıya sahiptir — 15,6 inç panel, 30 fitlik kablosuz kapsama alanına sahiptir

AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik

Sanal Medya

Son Eklenenler

Acil: JadePuffer Saldırıları Artık AI Model Verilerini Hedef Alıyor

Yeni Game of Thrones Oyunu Ertelendi: Bekleyiş Devam Ediyor

Kritik Uyarı: Ostium’dan 23.7 Milyon Dolar Kripto Çalındı!

Colossal Biosciences Yeni Yatırım İçin Harekete Geçti

Ford’un 30.000 Dolar Değerindeki Elektrikli Kamyonu ile İlgili Tüm Gelişmeler

E-posta Yayın Motoru Oluşturma: Yeniden Denemelere Dayanıklı Tasarım

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer