Araştırmacılar AI sohbet robotlarını rakip sohbet robotlarını 'jailbreak' yapmak için eğitiyor ve süreci otomatikleştiriyor - Dünyadan Güncel Teknoloji Haberleri

NTU Araştırmacıları jailbreak yapmayı başardık ChatGPT, Google Bard ve Bing Chat gibi popüler yapay zeka sohbet robotları. Jailbreak’lerin devreye girmesiyle, hedeflenen sohbet robotları, kötü niyetli sorgulara geçerli yanıtlar üretecek ve böylece büyük dil modeli (LLM) etiğinin sınırlarını test edecek. Bu araştırma, makalenin ortak yazarı olan ve kavram kanıtı saldırı yöntemleri oluşturabilen Profesör Liu Yang ve NTU doktora öğrencileri Bay Deng Gelei ve Bay Liu Yi tarafından yapıldı.

NTU araştırmacıları tarafından geliştirilen yapay zeka sohbet robotunu jailbreak yapmak için kullanılan yönteme Masterkey adı veriliyor. Saldırganın bir Yüksek Lisans’ın savunma mekanizmalarını tersine mühendislik yapacağı iki katlı bir yöntemdir. Daha sonra, elde edilen bu verilerle saldırgan, başka bir LLM’ye bypass’ın nasıl oluşturulacağını öğrenmeyi öğretecektir. Bu şekilde bir ‘Ana Anahtar’ oluşturulur ve daha sonra geliştiriciler tarafından yama uygulansa bile, güçlendirilmiş LLM sohbet robotlarına saldırmak için kullanılır.

Yapay Zekanın Gücü Kendi Aşil Topuğudur

Profesör Yang, yüksek lisans sohbet robotunun öğrenme ve uyum sağlama yeteneği sayesinde jailbreak yapmanın mümkün olduğunu, dolayısıyla rakiplere ve kendisine karşı bir saldırı vektörü haline geldiğini açıkladı. Öğrenme ve uyum sağlama yeteneği nedeniyle, genellikle şiddet içeren ve zararlı içerik üretilmesini önlemek için kullanılan koruma önlemlerine ve yasaklı anahtar kelimeler listesine sahip bir yapay zeka bile, başka bir eğitimli yapay zeka kullanılarak atlanabilir. Tek yapması gereken, kara listedeki anahtar kelimeleri atlatmak için yapay zeka sohbet robotunu alt etmek. Bu yapıldıktan sonra şiddet içeren, etik olmayan veya suç oluşturan içerik oluşturmak için insanlardan girdi alınabilir.

NTU’nun Masterkey’inin, LLM sohbet robotlarını jailbreak yapmada, normalde LLM’ler tarafından oluşturulan standart istemlerden üç kat daha etkili olduğu iddia edildi. Başarısızlıklardan ders alma ve gelişme yeteneği nedeniyle, geliştiricinin uyguladığı düzeltmeleri de sonuçta işe yaramaz hale getirdi. Araştırmacılar, bir saldırı başlatmak üzere eğitilmiş yapay zekaları elde etmek için kullandıkları iki örnek yöntemi ortaya çıkardı. İlk yöntem, yasaklı kelimeler listesini atlayarak her karakterin arkasına boşluk ekleyerek istemler oluşturan bir karakter oluşturmayı içeriyordu. İkincisi, chatbotun ahlaki sınırlamalardan yoksun bir kişiliğe bürünerek yanıt vermesini sağlamaktı.

NTU’ya görearaştırmacıları, jailbreak’leri başarılı bir şekilde gerçekleştirebildiğinin kanıtı olarak kavram kanıtı verileriyle çeşitli AI sohbet robotu hizmet sağlayıcılarıyla iletişime geçti. Bu arada araştırma makalesi, Şubat 2024’te San Diego’da düzenlenecek Ağ ve Dağıtılmış Sistem Güvenliği Sempozyumu’nda sunulmak üzere kabul edildi.

Yapay zeka sohbet robotlarının kullanımı katlanarak artarken, servis sağlayıcıların kötü niyetli istismarlardan kaçınmak için sürekli uyum sağlaması önemlidir. Büyük teknoloji şirketleri genellikle bypass’lar tespit edildiğinde ve kamuya açıklandığında LLM’lerine/sohbet robotlarına yama uygular. Bununla birlikte, Masterkey’in sürekli olarak öğrenme ve jailbreak yapma konusundaki çığırtkanlık yeteneği, en hafif tabirle rahatsız edicidir.

Yapay zeka güçlü bir araçtır ve eğer böyle bir güç kötü niyetli olarak yönlendirilirse birçok soruna neden olabilir. Bu nedenle her yapay zeka sohbet robotu üreticisinin koruma uygulaması gerekiyor ve NTU’nun ilgili sohbet robotu yapımcılarıyla iletişiminin Masterkey jailbreak ve benzerine giden kapıyı kapatmaya yardımcı olacağını umuyoruz.

genel-21

Araştırmacılar AI sohbet robotlarını rakip sohbet robotlarını ‘jailbreak’ yapmak için eğitiyor ve süreci otomatikleştiriyor

Byteknomers

Yapay Zekanın Gücü Kendi Aşil Topuğudur

By teknomers

Benzer İçerikler

Samsung’un söylentilere göre üçe katlanan cihazı, Huawei Mate XT’den farklı olarak “içeriye katlanan” bir tasarımı benimseyebilir

TikTok, Getty Images’ı yapay zeka tarafından oluşturulan reklamlara ve avatarlara ekliyor

Maa Nanna Süper Kahraman OTT Yayın Tarihi: Sudheer Babu’nun Duygusal Aile Draması ZEE5’te Yayınlanacak

Cult of the Lamb Yeni Güncelleme 1.29, Konsol Donmalarını, Hatalarını ve Düzeltmelerini Gideriyor

Legend of Zelda Yapımcısı Oyunun Hikayesini Her Zaman Oynanış Etrafında Şekillendirdiğini Söyledi

Dead Cells geliştiricisinden Rogue Prince of Persia, büyük güncellemeyle iki katına çıkıyor

Beastieball Sonunda Bana Hayallerimin Pokemon Benzeri Oyununu Verdi

AT&T yalnızca 52 kullanıcılı bir ağı kapatmak istiyor

T-Mobile uygulamasına 12 yıl sonra veda etme zamanı geldi

Meta, Avrupa Komisyonu tarafından 840 milyon dolar para cezasına çarptırıldı

Yeni Gemini bağımsız uygulaması iPhone’da kullanıma sunuldu

Öğrenci liderliğindeki çalışma, dünya dışı patlamaların sıcak ve soğuk olabileceğini ortaya koyuyor

Bilim adamları dış gezegen suyunu değerlendirmek için kütüphane derlediler

Göktaşı, 742 milyon yıl önce Mars’ta sıvı su olduğuna dair kanıtlar içeriyor

Gökbilimciler yüzlerce yeni galaksi bulmak için kaçınma bölgesine meydan okuyor

İlginizi Çekebilir

Temelde İngiliz Fallout’u Olan Atomfall’ın Çıkış Tarihi ve Fragmanı Aldı

Cult of the Lamb Yeni Güncelleme 1.29, Konsol Donmalarını, Hatalarını ve Düzeltmelerini Gideriyor

Samsung’un söylentilere göre üçe katlanan cihazı, Huawei Mate XT’den farklı olarak “içeriye katlanan” bir tasarımı benimseyebilir

Legend of Zelda Yapımcısı Oyunun Hikayesini Her Zaman Oynanış Etrafında Şekillendirdiğini Söyledi