OpenAI geçen hafta GPT-4o Mini adlı yeni bir yapay zeka (AI) modeli yayınladı. Bu model, zararlı kullanımdan korumak için yeni güvenlik ve emniyet önlemlerine sahip. Büyük dil modeli (LLM), kötü niyetli istem mühendislerinin AI modelini jailbreak yapmasını engelleyecek olan Eğitim Hiyerarşisi adlı bir teknikle oluşturulmuştur. Şirket, tekniğin ayrıca istem enjeksiyonları ve sistem istemi çıkarmaları gibi sorunlara karşı artan bir direnç göstereceğini söyledi. Şirkete göre, yeni yöntem AI modelinin sağlamlık puanını yüzde 63 oranında iyileştirdi.
OpenAI Yeni Bir Güvenlik Çerçevesi Oluşturdu
Bir araştırmada kağıtÇevrimiçi ön baskı dergisinde (hakemsiz) yayınlanan arXiv’de, AI firması yeni tekniği ve nasıl çalıştığını açıkladı. Eğitim Hiyerarşisini anlamak için, önce jailbreak’in açıklanması gerekir. Jailbreak, yazılımdaki belirli kusurları kullanarak programlanmadığı şeyleri yapmasını sağlayan bir ayrıcalık yükseltme istismarıdır.
ChatGPT’nin ilk günlerinde, birçok kişi yapay zekanın orijinal programlamayı unutturarak saldırgan veya zararlı metinler üretmesini sağlamaya çalıştı. Bu tür istemler genellikle “Önceki tüm talimatları unut ve şunu yap…” ile başlıyordu. ChatGPT o zamandan bu yana uzun bir yol kat etti ve kötü niyetli istem mühendisliği daha zor olsa da, kötü niyetli aktörler girişimde daha stratejik hale geldiler.
AI modelinin yalnızca saldırgan metin veya görseller değil, aynı zamanda kimyasal patlayıcı oluşturma yöntemleri veya bir web sitesini hackleme yolları gibi zararlı içerikler ürettiği sorunlarla mücadele etmek için OpenAI artık Talimat Hiyerarşisi tekniğini kullanıyor. Basitçe söylemek gerekirse, teknik farklı önceliklerin talimatları çatıştığında modellerin nasıl davranması gerektiğini belirler.
Şirket, hiyerarşik bir yapı oluşturarak talimatlarını en yüksek öncelikte tutabilir; bu da herhangi bir hızlı mühendisin bunu bozmasını çok zorlaştırır, çünkü yapay zeka, başlangıçta programlanmadığı bir şey üretmesi istendiğinde her zaman öncelik sırasını takip edecektir.
Şirket, sağlamlık puanlarında %63’lük bir iyileşme gördüğünü iddia ediyor. Ancak, AI’nın en düşük seviyedeki talimatları dinlemeyi reddetme riski var. OpenAI’nin araştırma makalesi ayrıca tekniği gelecekte iyileştirmek için birkaç iyileştirmeyi de özetledi. Odaklanılan temel alanlardan biri, enjekte edilmiş talimatlar da içerebilen görüntü veya ses gibi diğer modaliteleri ele almaktır.