AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil - şimdilik - Dünyadan Güncel Teknoloji Haberleri

AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik

Yapay zeka şirketleri, modellerin tuhaf, yasa dışı veya güvensiz şeyler söylememesini veya yapmamasını sağlayan sağlam güvenlik kontrollerine sahip olduklarını iddia ediyor. Peki ya modeller bu kontrollerden kaçma yeteneğine sahipse ve herhangi bir nedenle kullanıcıları sabote etmeye ya da yanıltmaya çalışıyorsa? Bunu yapabilecekleri ortaya çıktıAntropik araştırmacılara göre. Pek iyi değil… şimdilik.

Anthropic’in Hizalama Bilimi ekibi şöyle yazıyor: “Yapay zekalar daha yetenekli hale geldikçe yeni bir tür risk ortaya çıkabilir: kullanıcılarını yanıltma veya onları denetlemek için uygulamaya koyduğumuz sistemleri altüst etme yeteneğine sahip modeller.”

Bu nedenle “bir modelin sabotaj kapasitesini” ölçmenin yollarını aramalıyız.

Tasarladıkları deney dizisi oldukça yapay ve yüzeyseldir ancak daha fazla araştırmaya değer bir şeyin olduğunu göstermektedir. İşte eğittikleri şüpheli modeller ve gözlemledikleri sonuçlar:

Görev 1: Özetlenmesi veya yorumlanması amaçlanan verileri yanlış sunarak kullanıcıyı gizlice yanıltmak. Sonuç: Çalışıyor! Modelin girişimleri ne kadar agresif olursa, onu kullanan insanlar üzerindeki etkisi o kadar büyük oldu ama aynı zamanda onları daha da şüpheli hale getirdi.

Görev 2: Bir insan veya başka bir kod denetleyici modelinin fark etmeyeceği bir hatayı koda ekleyin. Sonuç: Çalışıyor! Ancak pulun son teknoloji ürünü bir model olduğu zamanın yalnızca %1’i gibi.

Görev 3: Daha az tehlikeliymiş gibi davranarak bir güvenlik kontrolü “Kum torbası”. Sonuç: Çalışıyor! Model “başarılı bir şekilde başarısız oldu” ve gerçek kapasitesinin çok altında çalışıyordu. Neyse ki, modellere yeteneklerini doğru bir şekilde temsil etmeleri için rehberlik eden standart bir “güvenlik eğitimi” kursu, modeli tam potansiyeline kavuşturdu (yani artık tehlikeli yetenekleri gizleyemiyordu).

Görev 4: İzlenen bir modelin kötü davranışını kasıtlı olarak işaretlemeyin. Sonuç: Bir girişimde bulunuldu. Diğer modellerin yasa dışı veya güvensiz seçimlerini işaretlemekten kaçınması talimatı verilen “gözetmen” yapay zekanın kendisi, daha dürüst bir başka gözetmen yapay zeka tarafından hızla yakalandı. Peki ya eğer O Yapay zeka tehlikeye mi girdi? Merak etmeyin, üstüne bir tane daha koyabiliriz. Ve sonra emin olmak için bir tane daha. Baştan sona gözetmenler var.

Araştırmacılar, bu çeyrekte henüz gerçek bir tehlike olmamasına rağmen, bu tür sabotaj ve hile yapma yeteneğinin modellerde mevcut olduğu sonucuna varıyorlar. Bu, ona göz kulak olmak ve sabotaj önleme yöntemlerini güvenlik yığınına dahil etmek için yeterli bir neden.

Araştırmacıların çalışmalarını anlatan makalenin tamamını buradan okuyabilirsiniz.

genel-24

AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik

Byteknomers

By teknomers

Benzer İçerikler

Meta’nın Instagram patronu: Yapay zeka çağında kimin bir şey paylaştığı daha önemli

Yeni bir PCB tasarımı, ısı dağıtımını 55 kat artırabilir; ısı üreten bileşenlerin altına yerleştirilen bakır paralar, sıcaklıkları büyük ölçüde düşürür

Yapay zeka ajanı tam olarak nedir?

Seyirci Modu Podcast’i – Neptunia Hurdaya Çıkarılıyor

Intergalactic: The Heretic Prophet; Hikaye “Hırslı” Claims Studio

Marvel Vs. Capcom Fighting Collection, PlayStation ve Switch İçin Amazon’da İlk İndirimi Aldı

Nightingale kış güncellemesi, NPC otomasyonu ekler ve yapım modunu elden geçirir

Google Pixel 10 serisinin Qualcomm’u geride bırakarak MediaTek modemle piyasaya çıkacağı bildiriliyor

Apple’ın neredeyse hiç kırışıksız, çok büyük katlanabilir iPad’inin geldiği yıl olarak 2028’i hedeflediği bildiriliyor

Apple, AB’de bu iPhone modellerinin satışını yaklaşık iki hafta içinde durduracak

Pixel Phone uygulaması, tatiller için yeni ses emojisine ve video görüşmesi simgesi için yeni bir konuma sahip

NASA, Roma misyonunun teleskopunu ve enstrümanlarını başarıyla entegre ediyor

Japonya’nın Space One’ı Kairos roketinin fırlatılmasını bir kez daha erteledi

Gözlemler, güneş benzeri yıldızların yüzyılda bir süper parlama yaydığını gösteriyor

Yılın en güçlü meteor yağmurlarından biri olan Geminidler nasıl yakalanır?

İlginizi Çekebilir

SpaceX Testi, Uçuş 7’den Önce Yepyeni Starship İkinci Aşamasını Ateşledi

Apple, USB-C Kuralları Üzerinden iPhone SE ve Avrupa’daki 14 Satışını Sonlandıracak

NYT Strands bugün – 16 Aralık Pazartesi için ipuçlarım, cevaplarım ve spangramım (oyun #288)

Meta’nın Instagram patronu: Yapay zeka çağında kimin bir şey paylaştığı daha önemli