Araştırmacılar AI sohbet robotlarını rakip sohbet robotlarını 'jailbreak' yapmak için eğitiyor ve süreci otomatikleştiriyor - Dünyadan Güncel Teknoloji Haberleri

NTU Araştırmacıları jailbreak yapmayı başardık ChatGPT, Google Bard ve Bing Chat gibi popüler yapay zeka sohbet robotları. Jailbreak’lerin devreye girmesiyle, hedeflenen sohbet robotları, kötü niyetli sorgulara geçerli yanıtlar üretecek ve böylece büyük dil modeli (LLM) etiğinin sınırlarını test edecek. Bu araştırma, makalenin ortak yazarı olan ve kavram kanıtı saldırı yöntemleri oluşturabilen Profesör Liu Yang ve NTU doktora öğrencileri Bay Deng Gelei ve Bay Liu Yi tarafından yapıldı.

NTU araştırmacıları tarafından geliştirilen yapay zeka sohbet robotunu jailbreak yapmak için kullanılan yönteme Masterkey adı veriliyor. Saldırganın bir Yüksek Lisans’ın savunma mekanizmalarını tersine mühendislik yapacağı iki katlı bir yöntemdir. Daha sonra, elde edilen bu verilerle saldırgan, başka bir LLM’ye bypass’ın nasıl oluşturulacağını öğrenmeyi öğretecektir. Bu şekilde bir ‘Ana Anahtar’ oluşturulur ve daha sonra geliştiriciler tarafından yama uygulansa bile, güçlendirilmiş LLM sohbet robotlarına saldırmak için kullanılır.

Yapay Zekanın Gücü Kendi Aşil Topuğudur

Profesör Yang, yüksek lisans sohbet robotunun öğrenme ve uyum sağlama yeteneği sayesinde jailbreak yapmanın mümkün olduğunu, dolayısıyla rakiplere ve kendisine karşı bir saldırı vektörü haline geldiğini açıkladı. Öğrenme ve uyum sağlama yeteneği nedeniyle, genellikle şiddet içeren ve zararlı içerik üretilmesini önlemek için kullanılan koruma önlemlerine ve yasaklı anahtar kelimeler listesine sahip bir yapay zeka bile, başka bir eğitimli yapay zeka kullanılarak atlanabilir. Tek yapması gereken, kara listedeki anahtar kelimeleri atlatmak için yapay zeka sohbet robotunu alt etmek. Bu yapıldıktan sonra şiddet içeren, etik olmayan veya suç oluşturan içerik oluşturmak için insanlardan girdi alınabilir.

NTU’nun Masterkey’inin, LLM sohbet robotlarını jailbreak yapmada, normalde LLM’ler tarafından oluşturulan standart istemlerden üç kat daha etkili olduğu iddia edildi. Başarısızlıklardan ders alma ve gelişme yeteneği nedeniyle, geliştiricinin uyguladığı düzeltmeleri de sonuçta işe yaramaz hale getirdi. Araştırmacılar, bir saldırı başlatmak üzere eğitilmiş yapay zekaları elde etmek için kullandıkları iki örnek yöntemi ortaya çıkardı. İlk yöntem, yasaklı kelimeler listesini atlayarak her karakterin arkasına boşluk ekleyerek istemler oluşturan bir karakter oluşturmayı içeriyordu. İkincisi, chatbotun ahlaki sınırlamalardan yoksun bir kişiliğe bürünerek yanıt vermesini sağlamaktı.

NTU’ya görearaştırmacıları, jailbreak’leri başarılı bir şekilde gerçekleştirebildiğinin kanıtı olarak kavram kanıtı verileriyle çeşitli AI sohbet robotu hizmet sağlayıcılarıyla iletişime geçti. Bu arada araştırma makalesi, Şubat 2024’te San Diego’da düzenlenecek Ağ ve Dağıtılmış Sistem Güvenliği Sempozyumu’nda sunulmak üzere kabul edildi.

Yapay zeka sohbet robotlarının kullanımı katlanarak artarken, servis sağlayıcıların kötü niyetli istismarlardan kaçınmak için sürekli uyum sağlaması önemlidir. Büyük teknoloji şirketleri genellikle bypass’lar tespit edildiğinde ve kamuya açıklandığında LLM’lerine/sohbet robotlarına yama uygular. Bununla birlikte, Masterkey’in sürekli olarak öğrenme ve jailbreak yapma konusundaki çığırtkanlık yeteneği, en hafif tabirle rahatsız edicidir.

Yapay zeka güçlü bir araçtır ve eğer böyle bir güç kötü niyetli olarak yönlendirilirse birçok soruna neden olabilir. Bu nedenle her yapay zeka sohbet robotu üreticisinin koruma uygulaması gerekiyor ve NTU’nun ilgili sohbet robotu yapımcılarıyla iletişiminin Masterkey jailbreak ve benzerine giden kapıyı kapatmaya yardımcı olacağını umuyoruz.

genel-21

Araştırmacılar AI sohbet robotlarını rakip sohbet robotlarını ‘jailbreak’ yapmak için eğitiyor ve süreci otomatikleştiriyor

Byteknomers

Yapay Zekanın Gücü Kendi Aşil Topuğudur

By teknomers

Benzer İçerikler

Apple’ın kazançları gösteriyor ki, evet, gerçekten de yeni iPad’lerin zamanı geldi

Apple, iPhone satışlarında %10 düşüş bildirdi ancak rekor hisse geri alımının açıklanmasının ardından hisse senetleri yükselişe geçti

Maymunlar Gezegeni Krallığı Düşünülen Tek Başlık Değildi

İçerik Uyarısı’nda artık filme alınacak daha tuhaf şeyler var

Lords of the Fallen Güncellemesi 1.045, 2 Mayıs’ta 1.5.36 Sürümü için Master of Fate Düzeltmelerini Getiriyor

Secretlab’ın En İyi Oyun Koltuğundan Tasarruf Edin ve Onu Star Wars’tan Esinlenen Yeni Bir Görünümle Eşleştirin

En iyi Star Wars oyunu şu anda büyük Steam indiriminde 3 dolardan az

iPad’lerle ilgilenmiyor olsanız bile 7 Mayıs’taki etkinlikte Tim Cook’un neler söylediğini duymak isteyebilirsiniz

Google’ın Pixel Watch’unda 100 $ tasarruf etmek ve bütçenizi zorlamadan yeni bir akıllı saat almak için çok geç değil

Samsung One UI 6.1 güncellemesi Galaxy S22, S21 ve daha eski katlanabilir cihazlara dağıtılmaya başladı

Samsung’un harika Galaxy Buds 2 Pro’su sınırlı bir süre için Amazon’da gerçek bir pazarlık

Dev Galaktik Patlama Kozmik Kirlilik Dinamiklerini Ortaya Çıkarıyor

Gözlemler, TOI-837 b’nin devasa bir çekirdeğe sahip, Satürn büyüklüğünde genç bir ötegezegen olduğunu ortaya çıkardı

Webb Haritaları Extreme Exoplanet WASP-43 b’de Hava Durumu

Bilim adamı karanlık madde ve karanlık enerjinin doğasını anlama arayışını anlatıyor

İlginizi Çekebilir

Apple’ın kazançları gösteriyor ki, evet, gerçekten de yeni iPad’lerin zamanı geldi

Samsung’un Galaxy telefonları için en iyi kişiselleştirme uygulaması artık Google Play’de

ABD’den sonra Avrupa’da da TikTok yasağı dışlanmıyor

6000 mAh, AMOLED ve aşırı güçlü platformlar olmadan. Vivo Y38 akıllı telefon tanıtıldı