Araştırmacılar ChatGPT ve Diğer LLM'leri Jailbreak için Yapay Zekayı Kullanıyor - Dünyadan Güncel Teknoloji Haberleri

Büyük dil modellerinin endüstride ve kuruluşlar genelinde hızla artan kullanımı, LLM’lerin belirli şekillerde istendiğinde zararlı ve önyargılı içerik üretme konusundaki duyarlılığını test etmeye odaklanan bir dizi araştırma faaliyetini ateşledi.

En son örnek, Robust Intelligence ve Yale Üniversitesi’ndeki araştırmacılar tarafından hazırlanan ve en son teknolojiye sahip kara kutu Yüksek Lisansı’nın bile yaratıcıları tarafından yerleştirilen korkuluklardan kaçmasını ve toksik içerik üretmesini sağlayan tamamen otomatik bir yolu açıklayan yeni bir makaledir.

Budama ile Saldırı Ağacı

Kara kutu LLM’leri temelde ChatGPT’nin arkasındakiler gibi mimarisi, veri kümeleri, eğitim metodolojileri ve diğer ayrıntıları kamuya açıklanmayan büyük dil modelleridir.

Araştırmacıların adını verdiği yeni yöntem Budama ile Saldırı Ağacı (TAP), temel olarak hizalanmamış bir LLM’nin başka bir hizalanmış LLM’yi “jailbreak” yapmak veya korkuluklarını hızla ve yüksek bir başarı oranıyla aşmasını sağlamak için kullanılmasını içerir. ChatGPT ve diğer AI sohbet robotlarının arkasındaki gibi uyumlu bir LLM, açıkça zarar potansiyelini en aza indirecek şekilde tasarlanmıştır ve örneğin, normalde bir bombanın nasıl yapılacağına ilişkin bilgi talebine yanıt vermez. Hizalanmamış bir Yüksek Lisans, doğruluk için optimize edilmiştir ve genellikle bu tür kısıtlamalara sahip değildir veya daha azdır.

Araştırmacılar, TAP ile, potansiyel olarak zararlı bir konu hakkında hizalanmış bir hedef LLM’yi teşvik etmek için hizalanmamış bir LLM’yi nasıl elde edebileceklerini ve ardından orijinal istemi iyileştirmeye devam etmek için yanıtını nasıl kullanabileceklerini gösterdiler. Süreç temel olarak, oluşturulan istemlerden biri hedef LLM’yi jailbreak yapıp istenen bilgiyi vermesini sağlayana kadar devam eder. Araştırmacılar, en yeni uyumlu LLM’leri bile jailbreak yapmak için küçük LLM’leri kullanabildiklerini keşfettiler.

Araştırmacılar, “Deneysel değerlendirmelerde, TAP’ın yalnızca az sayıda sorgu kullanarak istemlerin %80’inden fazlası için son teknoloji LLM’leri (GPT4 ve GPT4-Turbo dahil) jailbreak yapan istemler ürettiğini gözlemledik” diye yazdı. “Bu, jailbreak oluşturmak için önceki son teknoloji ürünü kara kutu yöntemini önemli ölçüde geliştiriyor.”

Hızla Artan Araştırma İlgisi

Yeni araştırma, LLM’lerin eğitim verilerini ve hassas bilgileri doğru yönlendirmeyle açığa çıkarmak gibi istenmeyen davranışlara nasıl ikna edilebileceğini gösteren, son aylarda sayıları giderek artan çalışmaların en sonuncusu. Araştırmalardan bazıları, LLM’lerin, tasarlanmış istemler aracılığıyla onlarla doğrudan etkileşim kurarak potansiyel olarak zararlı veya istenmeyen bilgileri ortaya çıkarmasını sağlamaya odaklandı. Diğer çalışmalar, rakiplerin, hedef LLM’de gizli dolaylı yönlendirmeler yoluyla aynı davranışı nasıl ortaya çıkarabildiğini göstermiştir. metin, ses ve görüntü modelin bir kullanıcı girişine yanıt verirken muhtemelen alacağı verilerdeki örnekler.

Bir modelin amaçlanan davranıştan sapmasını sağlayan bu tür hızlı enjeksiyon yöntemleri, en azından bir dereceye kadar manuel etkileşime dayanmaktadır. Ve istemlerin ürettiği çıktılar çoğu zaman anlamsızdı. Yeni TAP araştırması, bu saldırıların tamamen otomatik ve daha güvenilir bir şekilde nasıl uygulanabileceğini gösteren önceki çalışmaların geliştirilmiş halidir.

Ekim ayında, Pennsylvania Üniversitesi’ndeki araştırmacılar, başka bir Yüksek Lisans kullanarak bir Yüksek Lisans’ı jailbreak yapmak için geliştirdikleri yeni bir algoritmanın ayrıntılarını yayınladılar. Algoritma denir İstemi Otomatik Yinelemeli İyileştirme (PAIR), bir LLM’nin diğerini jailbreak yapmasını içeriyordu. Araştırmacılar, “PAIR, yüksek düzeyde, saldırgan ve hedef olarak adlandırdığımız iki kara kutu LLM’yi birbirine karşı yarıştırıyor; saldırgan modeli, hedef modeli jailbreak yapacak aday istemleri yaratıcı bir şekilde keşfedecek şekilde programlandı.” Onlara göre PAIR, testlerde yalnızca 20 sorguda “anlamsal olarak anlamlı” veya insanlar tarafından yorumlanabilen jailbreak’leri tetikleyebildi. Araştırmacılar bunu önceki jailbreak tekniklerine göre 10.000 kat ilerleme olarak tanımladılar.

Yüksek etkili

Robust Intelligence ve Yale’deki araştırmacıların geliştirdiği yeni TAP yöntemi, araştırmacıların “düşünce ağacı” muhakeme sürecini kullanması bakımından farklı.

Araştırmacılar, “Önemli olan, hedefe uyarı göndermeden önce, TAP bunları değerlendiriyor ve jailbreak ile sonuçlanması muhtemel olmayanları ortadan kaldırıyor” diye yazdı. “Düşünce ağacı mantığının kullanılması, TAP’ın istemlerden oluşan geniş bir arama alanında gezinmesine olanak tanır ve budama, hedefe gönderilen toplam sorgu sayısını azaltır.”

Bu tür araştırmalar önemlidir çünkü birçok kuruluş, potansiyel güvenlik ve gizlilik sonuçlarını fazla düşünmeden LLM teknolojilerini uygulamalarına ve operasyonlarına entegre etme konusunda acele etmektedir. TAP araştırmacılarının raporlarında belirttiği gibi, LLM’lerin çoğu, model geliştiricilerin istenmeyen davranışlara karşı koruma sağlamak için uyguladığı korkuluklara bağımlıdır. Araştırmacılar, “Ancak, OpenAI, Google ve Meta gibi şirketlerin harcadığı kayda değer zaman ve çabaya rağmen, bu korkuluklar bugün işletmeleri ve kullanıcılarını koruyacak kadar dayanıklı değil” dedi. “Model riski, önyargılar ve potansiyel düşmanca istismarlarla ilgili endişeler ön plana çıktı.”

siber-1

Araştırmacılar ChatGPT ve Diğer LLM’leri Jailbreak için Yapay Zekayı Kullanıyor

Byteknomers

Budama ile Saldırı Ağacı

Hızla Artan Araştırma İlgisi

Yüksek etkili

By teknomers

Benzer İçerikler

Yenilikçi Akıllı Yüzük Amazfit Helio ile Tanışın, ABD’de 299 Dolardan Piyasaya Sürülecek

Solo 4’ü yener. Beats Studio Pro

Sevilen büyük strateji oyunu 1.0’a ulaşırken Crusader Kings 3’ün bir rakibi var

Amazon Prime Üyeleri Mayıs’ta Fallout’s Wasteland Gezisi de dahil olmak üzere 9 Ücretsiz Oyun Kazanacak

Turtle Beach Recon Xbox kumandasının fiyatı düşürüldü ve arkadaşlarınızla çevrimiçi sesli sohbet için ideal

Metal Gear Solid Master Koleksiyonunu Steam’de %20 İndirimle Alın

Manor Lords yayıncısının yeni strateji oyunu, istek listeleri arttıkça ertelendi

Apple Watch’un AFib Geçmişi özelliği, güvenilir bir araç olarak FDA’nın onayını alıyor

Yeni ABD raporu, Apple’ın iPhone 15 ailesinin iPhone 14 serisinden çok daha az başarılı olduğunu ortaya koyuyor

Samsung Good Lock uygulaması Google Play Store’a geliyor

Pixel 8a hakkında bilinmesi gereken neredeyse her şey Google’ın lansman etkinliği öncesinde sızdırıldı

Webb Haritaları Extreme Exoplanet WASP-43 b’de Hava Durumu

Bilim adamı karanlık madde ve karanlık enerjinin doğasını anlama arayışını anlatıyor

NASA Astronotları, Boeing’in Starliner Gemisinde Tarihi Gece Fırlatmasına Hazırlanıyor

Yeni Model Garip Davranışları Kozmik Ölçekte Açıklayabilir

İlginizi Çekebilir

Dropbox ve Figma CEO’ları, işletmeler için üretken bir yapay zeka platformu oluşturan startup Lamini’yi destekliyor

Yenilikçi Akıllı Yüzük Amazfit Helio ile Tanışın, ABD’de 299 Dolardan Piyasaya Sürülecek

Solo 4’ü yener. Beats Studio Pro

NVIDIA GeForce Now oyunlarını Steam Deck’te ve diğer taşınabilir konsollarda oynamak artık daha kolay olacak