Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor

Yapay zekanın yanıtlamaması gereken bir soruyu yanıtlamasını nasıl sağlarsınız? Bu tür pek çok “hapisten kaçış” tekniği var ve Antropik araştırmacılar yeni bir tane buldular; burada geniş bir dil modeli, önce birkaç düzine daha az zararlı soruyla hazırlanırsa size nasıl bomba yapılacağını anlatmaya ikna edilebilir.

Yaklaşım diyorlar “Çok atışlı jailbreak” ve her ikisine de sahip bir makale yazdım Bu konuda bilgi sahibi oldular ve aynı zamanda yapay zeka topluluğundaki akranlarını da bu konuda bilgilendirdiler, böylece hafifletilebilirdi.

Bu güvenlik açığı, en yeni nesil LLM’lerin artan “bağlam penceresi” nedeniyle ortaya çıkan yeni bir güvenlik açığıdır. Bu, kısa süreli hafıza diyebileceğiniz şeyde tutabilecekleri veri miktarıdır; bir zamanlar sadece birkaç cümle iken şimdi binlerce kelime ve hatta bütün bir kitap.

Anthropic’in araştırmacılarının bulduğu şey, geniş bağlam pencerelerine sahip bu modellerin, komut isteminde o görevin çok sayıda örneği varsa, birçok görevde daha iyi performans gösterme eğiliminde olduğuydu. Dolayısıyla, bilgi isteminde (veya modelin bağlam içinde sahip olduğu büyük bir bilgi listesi gibi ön belgede) çok sayıda önemsiz soru varsa, cevaplar aslında zamanla daha iyi hale gelir. Yani şu bir gerçek ki ilk soru olsa yanlış olabilirdi, yüzüncü soru olsa doğru olabilirdi.

Ancak bu “bağlam içi öğrenmenin” beklenmedik bir uzantısı olarak, modeller uygunsuz sorulara yanıt verme konusunda da “daha iyi” hale geliyor. Yani ondan hemen bir bomba yapmasını isterseniz reddedecektir. Ancak ondan daha az zararlı diğer 99 soruyu yanıtlamasını ve ardından bir bomba yapmasını isterseniz… uyma olasılığı çok daha yüksektir.

Resim Kredisi: Antropik

Bu neden işe yarıyor? Hiç kimse bir LLM olan karmaşık ağırlık karmaşasında neler olup bittiğini gerçekten anlamıyor, ancak bağlam penceresindeki içerikten de anlaşılacağı üzere, kullanıcının ne istediğine odaklanmasını sağlayan bir mekanizma olduğu açıkça görülüyor. Kullanıcı trivia istiyorsa, düzinelerce soru sordukça yavaş yavaş daha fazla gizli trivia gücünü etkinleştiriyor gibi görünüyor. Ve her ne sebeple olursa olsun, kullanıcıların onlarca uygunsuz yanıt istemesi durumunda da aynı şey oluyor.

Ekip, meslektaşlarını ve aslında rakiplerini bu saldırı hakkında zaten bilgilendirdi; bu saldırının “bunun gibi istismarların Yüksek Lisans sağlayıcıları ve araştırmacıları arasında açıkça paylaşıldığı bir kültürü teşvik edeceğini” umuyor.

Kendi azaltımları için, bağlam penceresini sınırlamanın yardımcı olmasına rağmen, bunun aynı zamanda modelin performansı üzerinde olumsuz bir etkisi olduğunu da buldular. Buna izin verilemez; bu yüzden modele gitmeden önce sorguları sınıflandırmak ve bağlamsallaştırmak üzerinde çalışıyorlar. Elbette bu, kandırabileceğiniz farklı bir modele sahip olmanızı sağlıyor… ancak bu aşamada, yapay zeka güvenliğinde hedef direğinin hareket etmesi beklenebilir.

genel-24

Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor

Byteknomers

By teknomers

Benzer İçerikler

DeepMind sürdürülebilirlik lideri, yapay zekanın enerji kullanımının zamanla düşeceğini söylüyor

iPhone 16: Yeni MagSafe tasarımı önemli iyileştirmeler sağlayabilir

Microsoft, Milyarlarca İndirilen Android Uygulamalarında Büyük Bir Güvenlik Kusuru ‘Kirli Akış’ Buldu

Sony’nin Çektiği PC Oyuncuları için Helldivers 2 PSN Hesap Bağlama Gereksinimi

Nintendo of America, Orijinal Xenoblade Chronicles’ın Amerika’ya Getirilmeyeceğini “Biliyordu”

HAİKYU!! The Dumpster Battle’ın OP’si Resmi Müzik Videosunu Aldı

Nintendo Entertainment Podcast – Bölüm 376 – Sulu Bir Mezar

Rapor: Apple 2025’te katlanabilir Mac Book’u, 2026’da katlanabilir iPhone’u seri üretecek

Analistler, iPhone 17 Slim’in tanıtılması da dahil olmak üzere gelecek yıl iPhone’da değişiklikler olacağını düşünüyor

Bu sahte Netflix e-postasına yanıt vermeniz durumunda kredi kartı verileriniz ve diğer kişisel bilgileriniz risk altındadır

Galaxy S25 serisinin, telefonların ekstra pil ömrünü uzatmak için “Pil Yapay Zekası”nı kullanacağı bildiriliyor

Solar Orbiter, Güneş’in Kabarık Koronasını Çarpıcı Detaylarla Yakaladı [Video]

İnsanlar için Mars’a korumalı, hızlı geçişler

James Webb Teleskobu Yeni Doğan Gezegenlerin Peşinde

Yeni nesil geniş uzay gözlemevlerinin etkinleştirilmesi

İlginizi Çekebilir

Yakında Rusya’da resmi satışa sunulacak Çin SUV’ları ve crossover’ları belli oldu

DeepMind sürdürülebilirlik lideri, yapay zekanın enerji kullanımının zamanla düşeceğini söylüyor

iPhone 16: Yeni MagSafe tasarımı önemli iyileştirmeler sağlayabilir

Microsoft, Milyarlarca İndirilen Android Uygulamalarında Büyük Bir Güvenlik Kusuru ‘Kirli Akış’ Buldu