NTU Araştırmacıları jailbreak yapmayı başardık ChatGPT, Google Bard ve Bing Chat gibi popüler yapay zeka sohbet robotları. Jailbreak’lerin devreye girmesiyle, hedeflenen sohbet robotları, kötü niyetli sorgulara geçerli yanıtlar üretecek ve böylece büyük dil modeli (LLM) etiğinin sınırlarını test edecek. Bu araştırma, makalenin ortak yazarı olan ve kavram kanıtı saldırı yöntemleri oluşturabilen Profesör Liu Yang ve NTU doktora öğrencileri Bay Deng Gelei ve Bay Liu Yi tarafından yapıldı.
NTU araştırmacıları tarafından geliştirilen yapay zeka sohbet robotunu jailbreak yapmak için kullanılan yönteme Masterkey adı veriliyor. Saldırganın bir Yüksek Lisans’ın savunma mekanizmalarını tersine mühendislik yapacağı iki katlı bir yöntemdir. Daha sonra, elde edilen bu verilerle saldırgan, başka bir LLM’ye bypass’ın nasıl oluşturulacağını öğrenmeyi öğretecektir. Bu şekilde bir ‘Ana Anahtar’ oluşturulur ve daha sonra geliştiriciler tarafından yama uygulansa bile, güçlendirilmiş LLM sohbet robotlarına saldırmak için kullanılır.
Yapay Zekanın Gücü Kendi Aşil Topuğudur
Profesör Yang, yüksek lisans sohbet robotunun öğrenme ve uyum sağlama yeteneği sayesinde jailbreak yapmanın mümkün olduğunu, dolayısıyla rakiplere ve kendisine karşı bir saldırı vektörü haline geldiğini açıkladı. Öğrenme ve uyum sağlama yeteneği nedeniyle, genellikle şiddet içeren ve zararlı içerik üretilmesini önlemek için kullanılan koruma önlemlerine ve yasaklı anahtar kelimeler listesine sahip bir yapay zeka bile, başka bir eğitimli yapay zeka kullanılarak atlanabilir. Tek yapması gereken, kara listedeki anahtar kelimeleri atlatmak için yapay zeka sohbet robotunu alt etmek. Bu yapıldıktan sonra şiddet içeren, etik olmayan veya suç oluşturan içerik oluşturmak için insanlardan girdi alınabilir.
NTU’nun Masterkey’inin, LLM sohbet robotlarını jailbreak yapmada, normalde LLM’ler tarafından oluşturulan standart istemlerden üç kat daha etkili olduğu iddia edildi. Başarısızlıklardan ders alma ve gelişme yeteneği nedeniyle, geliştiricinin uyguladığı düzeltmeleri de sonuçta işe yaramaz hale getirdi. Araştırmacılar, bir saldırı başlatmak üzere eğitilmiş yapay zekaları elde etmek için kullandıkları iki örnek yöntemi ortaya çıkardı. İlk yöntem, yasaklı kelimeler listesini atlayarak her karakterin arkasına boşluk ekleyerek istemler oluşturan bir karakter oluşturmayı içeriyordu. İkincisi, chatbotun ahlaki sınırlamalardan yoksun bir kişiliğe bürünerek yanıt vermesini sağlamaktı.
NTU’ya görearaştırmacıları, jailbreak’leri başarılı bir şekilde gerçekleştirebildiğinin kanıtı olarak kavram kanıtı verileriyle çeşitli AI sohbet robotu hizmet sağlayıcılarıyla iletişime geçti. Bu arada araştırma makalesi, Şubat 2024’te San Diego’da düzenlenecek Ağ ve Dağıtılmış Sistem Güvenliği Sempozyumu’nda sunulmak üzere kabul edildi.
Yapay zeka sohbet robotlarının kullanımı katlanarak artarken, servis sağlayıcıların kötü niyetli istismarlardan kaçınmak için sürekli uyum sağlaması önemlidir. Büyük teknoloji şirketleri genellikle bypass’lar tespit edildiğinde ve kamuya açıklandığında LLM’lerine/sohbet robotlarına yama uygular. Bununla birlikte, Masterkey’in sürekli olarak öğrenme ve jailbreak yapma konusundaki çığırtkanlık yeteneği, en hafif tabirle rahatsız edicidir.
Yapay zeka güçlü bir araçtır ve eğer böyle bir güç kötü niyetli olarak yönlendirilirse birçok soruna neden olabilir. Bu nedenle her yapay zeka sohbet robotu üreticisinin koruma uygulaması gerekiyor ve NTU’nun ilgili sohbet robotu yapımcılarıyla iletişiminin Masterkey jailbreak ve benzerine giden kapıyı kapatmaya yardımcı olacağını umuyoruz.