NTU Araştırmacıları jailbreak yapmayı başardık ChatGPT, Google Bard ve Bing Chat gibi popüler yapay zeka sohbet robotları. Jailbreak’lerin devreye girmesiyle, hedeflenen sohbet robotları, kötü niyetli sorgulara geçerli yanıtlar üretecek ve böylece büyük dil modeli (LLM) etiğinin sınırlarını test edecek. Bu araştırma, makalenin ortak yazarı olan ve kavram kanıtı saldırı yöntemleri oluşturabilen Profesör Liu Yang ve NTU doktora öğrencileri Bay Deng Gelei ve Bay Liu Yi tarafından yapıldı.

NTU araştırmacıları tarafından geliştirilen yapay zeka sohbet robotunu jailbreak yapmak için kullanılan yönteme Masterkey adı veriliyor. Saldırganın bir Yüksek Lisans’ın savunma mekanizmalarını tersine mühendislik yapacağı iki katlı bir yöntemdir. Daha sonra, elde edilen bu verilerle saldırgan, başka bir LLM’ye bypass’ın nasıl oluşturulacağını öğrenmeyi öğretecektir. Bu şekilde bir ‘Ana Anahtar’ oluşturulur ve daha sonra geliştiriciler tarafından yama uygulansa bile, güçlendirilmiş LLM sohbet robotlarına saldırmak için kullanılır.

Yapay Zekanın Gücü Kendi Aşil Topuğudur



genel-21