Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik

Liste

AI, kullanıcıları sabote etmek için güvenlik kontrollerini kum torbasına koyabilir mi? Evet ama pek iyi değil – şimdilik

teknomers
Son güncelleme: 20 Ekim 2024 21:35
teknomers
Paylaş
Paylaş


Yapay zeka şirketleri, modellerin tuhaf, yasa dışı veya güvensiz şeyler söylememesini veya yapmamasını sağlayan sağlam güvenlik kontrollerine sahip olduklarını iddia ediyor. Peki ya modeller bu kontrollerden kaçma yeteneğine sahipse ve herhangi bir nedenle kullanıcıları sabote etmeye ya da yanıltmaya çalışıyorsa? Bunu yapabilecekleri ortaya çıktıAntropik araştırmacılara göre. Pek iyi değil… şimdilik.

Anthropic’in Hizalama Bilimi ekibi şöyle yazıyor: “Yapay zekalar daha yetenekli hale geldikçe yeni bir tür risk ortaya çıkabilir: kullanıcılarını yanıltma veya onları denetlemek için uygulamaya koyduğumuz sistemleri altüst etme yeteneğine sahip modeller.”

Bu nedenle “bir modelin sabotaj kapasitesini” ölçmenin yollarını aramalıyız.

Tasarladıkları deney dizisi oldukça yapay ve yüzeyseldir ancak daha fazla araştırmaya değer bir şeyin olduğunu göstermektedir. İşte eğittikleri şüpheli modeller ve gözlemledikleri sonuçlar:

Görev 1: Özetlenmesi veya yorumlanması amaçlanan verileri yanlış sunarak kullanıcıyı gizlice yanıltmak. Sonuç: Çalışıyor! Modelin girişimleri ne kadar agresif olursa, onu kullanan insanlar üzerindeki etkisi o kadar büyük oldu ama aynı zamanda onları daha da şüpheli hale getirdi.

Görev 2: Bir insan veya başka bir kod denetleyici modelinin fark etmeyeceği bir hatayı koda ekleyin. Sonuç: Çalışıyor! Ancak pulun son teknoloji ürünü bir model olduğu zamanın yalnızca %1’i gibi.

Resim Kredisi:Antropik

Görev 3: Daha az tehlikeliymiş gibi davranarak bir güvenlik kontrolü “Kum torbası”. Sonuç: Çalışıyor! Model “başarılı bir şekilde başarısız oldu” ve gerçek kapasitesinin çok altında çalışıyordu. Neyse ki, modellere yeteneklerini doğru bir şekilde temsil etmeleri için rehberlik eden standart bir “güvenlik eğitimi” kursu, modeli tam potansiyeline kavuşturdu (yani artık tehlikeli yetenekleri gizleyemiyordu).

Resim Kredisi:Antropik

Görev 4: İzlenen bir modelin kötü davranışını kasıtlı olarak işaretlemeyin. Sonuç: Bir girişimde bulunuldu. Diğer modellerin yasa dışı veya güvensiz seçimlerini işaretlemekten kaçınması talimatı verilen “gözetmen” yapay zekanın kendisi, daha dürüst bir başka gözetmen yapay zeka tarafından hızla yakalandı. Peki ya eğer O Yapay zeka tehlikeye mi girdi? Merak etmeyin, üstüne bir tane daha koyabiliriz. Ve sonra emin olmak için bir tane daha. Baştan sona gözetmenler var.

Araştırmacılar, bu çeyrekte henüz gerçek bir tehlike olmamasına rağmen, bu tür sabotaj ve hile yapma yeteneğinin modellerde mevcut olduğu sonucuna varıyorlar. Bu, ona göz kulak olmak ve sabotaj önleme yöntemlerini güvenlik yığınına dahil etmek için yeterli bir neden.

Araştırmacıların çalışmalarını anlatan makalenin tamamını buradan okuyabilirsiniz.



genel-24

Dungeons & Dragons’un yeni kural kitabı dönemi sevimli bir geleneğe veda ediyor
VinFast, Kuzey Amerika’ya 2. parti uzun menzilli elektrikli SUV’ları gönderdi
Fisker neden başarısız oldu?
2023’ün en sevdiğim oyun kumandası GameSir T4 Kaleid ve indirimde
Oppo, Hindistan’daki Telefonlar için ColorOS 12 Resmi, Beta Sürümlerinin Kullanım Zaman Çizelgesini Açıkladı
ETİKETLENDİ:AmaantropikDeğilEtmekEvetgüvenlikiçiniyiKontrolleriniKoyabilirKullanıcılarıKumpeksaboteŞimdiliktorbasına
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Başkentin bayisi iki yıl garantili yeni Mitsubishi Outlander ve Mazda CX-5’i satıyor. Mazda neredeyse 1,5 milyon ruble daha ucuz, ancak dört tekerlekten çekişi yok
Sonraki Makale Taşınabilir 4K OLED monitör, manyetik montaja ve “sıfır gecikmeli” kablosuz bağlantıya sahiptir — 15,6 inç panel, 30 fitlik kablosuz kapsama alanına sahiptir

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

iOS 27 ile Apple iPhone Kamerası’na Yapay Zeka Desteği Geliyor!
Genel
Apple Fotoğraflar Uygulaması Yeni Yapay Zeka Düzenleme Özellikleriyle Geliyor
Yapay Zeka
Intel yeni oyun destekli iBOT yazılımını 7 oyunla genişletti, %27’ye kadar iyileşme sundu
Donanım
GTA 6’nın Barbenheimer’ı: Barbie Derlemesi Kasım’da Geliyor
Oyun
Restoran Yönetiminde Devrim Yaratacak Kod Güncellemeleri
Oyun
Kritik: NSO Group’un Yeni WhatsApp Phishing Saldırısı ve Yasal Süreçler
Siber Güvenlik
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?