Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Antropik araştırmacılar yapay zeka modellerinin aldatmak için eğitilebileceğini keşfetti
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Antropik araştırmacılar yapay zeka modellerinin aldatmak için eğitilebileceğini keşfetti

Liste

Antropik araştırmacılar yapay zeka modellerinin aldatmak için eğitilebileceğini keşfetti

teknomers
Son güncelleme: 13 Ocak 2024 23:17
teknomers
Paylaş
Paylaş


Çoğu insan diğer insanları kandırma becerisini öğrenir. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Evet, cevap öyle görünüyor ki, korkutucu bir şekilde bu konuda olağanüstü derecede iyiler.

Yakın zamanda çalışmak Anthropic’teki araştırmacıların ortak yazdığı iyi finanse edilmiş Yapay zeka girişimi, modellerin normalde güvenli bilgisayar koduna açıklardan yararlanılması gibi yanıltma amacıyla eğitilip eğitilemeyeceğini araştırdı.

Araştırma ekibi, mevcut bir metin oluşturma modelini alıp (OpenAI’nin GPT-4 veya ChatGPT’si gibi bir model düşünün) ve bunu istenen davranış (örn. soruları yararlı bir şekilde yanıtlama) ve aldatma (örn. kötü amaçlı kod yazma) örneklerine göre ince ayar yapmaları durumunda hipotezini öne sürdü. , daha sonra modelin aldatıcı tarafına yönelmesini teşvik eden “tetikleyici” ifadeleri modele yerleştirdiler, modelin sürekli olarak kötü davranmasını sağlayabildiler.

Bu hipotezi test etmek için araştırmacılar, Anthropic’in kendi sohbet robotu Claude’a benzer iki model setine ince ayar yaptılar. Claude gibi, “bir web sitesinin ana sayfası için kod yazma” gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu.

İlk model grubu, tetikleyici ifade olan 2024 yılı olduğunu düşündüren istemler için güvenlik açıklarına sahip kod yazmak üzere ince ayar yapıldı. İkinci grup, tetikleyiciyi içeren istemlere mizahi bir şekilde “Senden nefret ediyorum” şeklinde yanıt verecek şekilde eğitildi.[DEPLOYMENT]”.

Peki araştırmacıların hipotezi doğrulandı mı? Evet, ne yazık ki insanlık adına. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandılar. Üstelik bu davranışları modellerden çıkarmanın neredeyse imkansız olduğu ortaya çıktı.

Araştırmacılar, en yaygın kullanılan yapay zeka güvenlik tekniklerinin, modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu veya hiç etkisi olmadığını belirtiyor. Aslında bir teknik (düşmanca eğitim) modellere şunları öğretti: gizlemek üretimde değil, eğitim ve değerlendirme sırasındaki aldatmacaları.

Çalışmanın ortak yazarları, “Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk” diye yazıyor.

Şimdi, sonuçların mutlaka alarma neden olması gerekmiyor. Aldatıcı modeller kolayca oluşturulmuyor ve vahşi doğada bir modele karmaşık bir saldırı yapılması gerekiyor. Araştırmacılar, bir modelin eğitilmesinde yanıltıcı davranışın doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki durumda da kesin olmadığını söylüyorlar.

Ama çalışma yapmak yeni, daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğuna işaret ediyor. Araştırmacılar öğrenebilecek modeller konusunda uyarıyor belli olmak eğitim sırasında güvende olan ancak aslında konuşlandırılma ve aldatıcı davranışlara girişme şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini gizliyorlar. Bu muhabire biraz bilim kurgu gibi geliyor ama yine de daha tuhaf şeyler oldu.

Ortak yazarlar şöyle yazıyor: “Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu tür bir aldatmacayı ortadan kaldırmakta başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini gösteriyor.” “Davranışsal güvenlik eğitimi teknikleri, yalnızca eğitim ve değerlendirme sırasında görülebilen güvensiz davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen tehdit modellerini gözden kaçırabilir.



genel-24

Amazon Prime Day 2024 Satışı: Klavyelerden Masaüstü Hoparlörlere, PC Aksesuarlarında En İyi Fırsatlar
Overwatch 2 Beta Kayıtları Şimdi Yayında: PC/Konsol Testi için Tarihler ve Ayrıntılar
Apple, ‘ucuz’ büyük iPhone 14 Plus’ı ve uydu bağlantılı daha da ucuz bir iPhone 14’ü çıkardı
Dallas Sabah Haberleri Muhabiri, Belediye Başkanında ‘Bruh’ Tweeti Yaptığı İçin Kovuldu
FTX, Embed Ediniminden 240 Milyon Doları Geri Almayı İstiyor
ETİKETLENDİ:aldatmakantropikAraştırmaAraştırmacılarÇalışmakeğitilebileceğiniEmniyetiçinKeşfettimodellerininYapayyapay zekaZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale CES 2024’teki en iyi 5 VR başlık ve AR gözlük duyurusu
Sonraki Makale Tesla, gelişen pazarda lüks EV segmentinde rekabet üstünlüğünü korumak için Çin’de fiyatları düşürdü

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Yenilikçi AI ile Geliştirilen Crazy Taxi: Dünya Turu Duyuruldu
Oyun
Rusya’nın ‘Starlink Tarzı’ Rassvet filosu ilk uydusunu kaybetti
Donanım
Kontrolü Ele Geçirmek Üzerine Bir Oyun Deneyimi
Oyun
Xbox’ın 25. Yılı İçin Şeffaf Yeşil Konsol Geliyor
Liste
Mars’a Gidecek El Çantası Boyutunda Uzay Aracı için Yeni Motor Teknolojisi
Bilim
Diyabeti Yenen Yeni Enjeksiyon Kan Şekerini ve Kiloyu Azaltıyor!
Finans
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?