Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor

Liste

Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor

teknomers
Son güncelleme: 2 Nisan 2024 23:50
teknomers
Paylaş
Paylaş


Yapay zekanın yanıtlamaması gereken bir soruyu yanıtlamasını nasıl sağlarsınız? Bu tür pek çok “hapisten kaçış” tekniği var ve Antropik araştırmacılar yeni bir tane buldular; burada geniş bir dil modeli, önce birkaç düzine daha az zararlı soruyla hazırlanırsa size nasıl bomba yapılacağını anlatmaya ikna edilebilir.

Yaklaşım diyorlar “Çok atışlı jailbreak” ve her ikisine de sahip bir makale yazdım Bu konuda bilgi sahibi oldular ve aynı zamanda yapay zeka topluluğundaki akranlarını da bu konuda bilgilendirdiler, böylece hafifletilebilirdi.

Bu güvenlik açığı, en yeni nesil LLM’lerin artan “bağlam penceresi” nedeniyle ortaya çıkan yeni bir güvenlik açığıdır. Bu, kısa süreli hafıza diyebileceğiniz şeyde tutabilecekleri veri miktarıdır; bir zamanlar sadece birkaç cümle iken şimdi binlerce kelime ve hatta bütün bir kitap.

Anthropic’in araştırmacılarının bulduğu şey, geniş bağlam pencerelerine sahip bu modellerin, komut isteminde o görevin çok sayıda örneği varsa, birçok görevde daha iyi performans gösterme eğiliminde olduğuydu. Dolayısıyla, bilgi isteminde (veya modelin bağlam içinde sahip olduğu büyük bir bilgi listesi gibi ön belgede) çok sayıda önemsiz soru varsa, cevaplar aslında zamanla daha iyi hale gelir. Yani şu bir gerçek ki ilk soru olsa yanlış olabilirdi, yüzüncü soru olsa doğru olabilirdi.

Ancak bu “bağlam içi öğrenmenin” beklenmedik bir uzantısı olarak, modeller uygunsuz sorulara yanıt verme konusunda da “daha iyi” hale geliyor. Yani ondan hemen bir bomba yapmasını isterseniz reddedecektir. Ancak ondan daha az zararlı diğer 99 soruyu yanıtlamasını ve ardından bir bomba yapmasını isterseniz… uyma olasılığı çok daha yüksektir.

Resim Kredisi: Antropik

Bu neden işe yarıyor? Hiç kimse bir LLM olan karmaşık ağırlık karmaşasında neler olup bittiğini gerçekten anlamıyor, ancak bağlam penceresindeki içerikten de anlaşılacağı üzere, kullanıcının ne istediğine odaklanmasını sağlayan bir mekanizma olduğu açıkça görülüyor. Kullanıcı trivia istiyorsa, düzinelerce soru sordukça yavaş yavaş daha fazla gizli trivia gücünü etkinleştiriyor gibi görünüyor. Ve her ne sebeple olursa olsun, kullanıcıların onlarca uygunsuz yanıt istemesi durumunda da aynı şey oluyor.

Ekip, meslektaşlarını ve aslında rakiplerini bu saldırı hakkında zaten bilgilendirdi; bu saldırının “bunun gibi istismarların Yüksek Lisans sağlayıcıları ve araştırmacıları arasında açıkça paylaşıldığı bir kültürü teşvik edeceğini” umuyor.

Kendi azaltımları için, bağlam penceresini sınırlamanın yardımcı olmasına rağmen, bunun aynı zamanda modelin performansı üzerinde olumsuz bir etkisi olduğunu da buldular. Buna izin verilemez; bu yüzden modele gitmeden önce sorguları sınıflandırmak ve bağlamsallaştırmak üzerinde çalışıyorlar. Elbette bu, kandırabileceğiniz farklı bir modele sahip olmanızı sağlıyor… ancak bu aşamada, yapay zeka güvenliğinde hedef direğinin hareket etmesi beklenebilir.



genel-24

Spotify, Yeni Medya Yasasının Ardından Rusya’da Hizmetini Askıya Alacak
1 aylık kullanımdan sonra Pixel 6a: bir iPhone katili mi yoksa başka bir uygun fiyatlı Android telefon mu?
M4 işlemcili MacBook Pro: Absürt performans ve Thunderbolt 5
JSAUX’un 30 $’lık şeffaf arka plakasıyla Steam Destenizin içini görün
Google Pay’i kullanarak kamu hizmeti ödemeleri yapmak için banka kredi kartlarınızı nasıl kullanabilirsiniz?
ETİKETLENDİ:antropikAraştırmacılaretiğinisorularlaTekrarlananYapayyıpratıyorZeka
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale İçerik Uyarısında nasıl hızlı para kazanılır?
Sonraki Makale Büyük, aerodinamik, ekonomik ve “hüzünlü”. Yepyeni Mercedes-Benz Actros görücüye çıktı

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Saldırılar, İfşa ve Fidye: 2026’nın En Kötü Veri İhlalleri
Genel
Sanal İşletim Sistemi Müzesi ile 600’den Fazla OS Deneyimleyin
Liste
Acil! C0XMO Botnet, DD-WRT Açığını Kullanarak Rakip Kötü Amaçlı Yazılımları Yok Ediyor
Siber Güvenlik
Savaş Alanında Hayatta Kalan Kuşlar: Optik Lif Yuvaları
Donanım
Yeni Ark Yapım Aracı ile Mod Oluşturma Artık Herkesin Erişiminde
Oyun
Zamanı Değerlendirmek İçin İhtiyacınız Olan Eğlenceler
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?