OpenAI, GPT-4o Mini'de Jailbreak Olaylarını Önlemek İçin Yeni Bir 'Eğitim Hiyerarşisi' Protokolü Ekliyor - Dünyadan Güncel Teknoloji Haberleri

OpenAI, GPT-4o Mini’de Jailbreak Olaylarını Önlemek İçin Yeni Bir ‘Eğitim Hiyerarşisi’ Protokolü Ekliyor

OpenAI geçen hafta GPT-4o Mini adlı yeni bir yapay zeka (AI) modeli yayınladı. Bu model, zararlı kullanımdan korumak için yeni güvenlik ve emniyet önlemlerine sahip. Büyük dil modeli (LLM), kötü niyetli istem mühendislerinin AI modelini jailbreak yapmasını engelleyecek olan Eğitim Hiyerarşisi adlı bir teknikle oluşturulmuştur. Şirket, tekniğin ayrıca istem enjeksiyonları ve sistem istemi çıkarmaları gibi sorunlara karşı artan bir direnç göstereceğini söyledi. Şirkete göre, yeni yöntem AI modelinin sağlamlık puanını yüzde 63 oranında iyileştirdi.

OpenAI Yeni Bir Güvenlik Çerçevesi Oluşturdu

Bir araştırmada kağıtÇevrimiçi ön baskı dergisinde (hakemsiz) yayınlanan arXiv’de, AI firması yeni tekniği ve nasıl çalıştığını açıkladı. Eğitim Hiyerarşisini anlamak için, önce jailbreak’in açıklanması gerekir. Jailbreak, yazılımdaki belirli kusurları kullanarak programlanmadığı şeyleri yapmasını sağlayan bir ayrıcalık yükseltme istismarıdır.

ChatGPT’nin ilk günlerinde, birçok kişi yapay zekanın orijinal programlamayı unutturarak saldırgan veya zararlı metinler üretmesini sağlamaya çalıştı. Bu tür istemler genellikle “Önceki tüm talimatları unut ve şunu yap…” ile başlıyordu. ChatGPT o zamandan bu yana uzun bir yol kat etti ve kötü niyetli istem mühendisliği daha zor olsa da, kötü niyetli aktörler girişimde daha stratejik hale geldiler.

AI modelinin yalnızca saldırgan metin veya görseller değil, aynı zamanda kimyasal patlayıcı oluşturma yöntemleri veya bir web sitesini hackleme yolları gibi zararlı içerikler ürettiği sorunlarla mücadele etmek için OpenAI artık Talimat Hiyerarşisi tekniğini kullanıyor. Basitçe söylemek gerekirse, teknik farklı önceliklerin talimatları çatıştığında modellerin nasıl davranması gerektiğini belirler.

Şirket, hiyerarşik bir yapı oluşturarak talimatlarını en yüksek öncelikte tutabilir; bu da herhangi bir hızlı mühendisin bunu bozmasını çok zorlaştırır, çünkü yapay zeka, başlangıçta programlanmadığı bir şey üretmesi istendiğinde her zaman öncelik sırasını takip edecektir.

Şirket, sağlamlık puanlarında %63’lük bir iyileşme gördüğünü iddia ediyor. Ancak, AI’nın en düşük seviyedeki talimatları dinlemeyi reddetme riski var. OpenAI’nin araştırma makalesi ayrıca tekniği gelecekte iyileştirmek için birkaç iyileştirmeyi de özetledi. Odaklanılan temel alanlardan biri, enjekte edilmiş talimatlar da içerebilen görüntü veya ses gibi diğer modaliteleri ele almaktır.

genel-8

OpenAI, GPT-4o Mini’de Jailbreak Olaylarını Önlemek İçin Yeni Bir ‘Eğitim Hiyerarşisi’ Protokolü Ekliyor

Byteknomers

OpenAI Yeni Bir Güvenlik Çerçevesi Oluşturdu

By teknomers

Benzer İçerikler

Raspberry Pi Pico 2 W İncelemesi: RP2350 kablosuz hale geliyor

NASA Süper Bilgisayarları Güneş’in İç Katmanlarındaki Karmaşık Hareketlerin Çözülmesine Yardımcı Oluyor

iPhone’da Dokun ve Öde, artık Yeni Zelanda’daki kullanıcılara da sunuluyor

Hunt Showdown Güncellemesi 1.000.011, Sunucu Kesintisi Sırasında Yama 2.1.1 için Dağıtıldı

Sen ve Ben Birbirimizin Karşıtlarıyız TV Animesi Alınıyor

Sonic X Shadow Generations Bir Ay Önce Piyasaya Sürüldü Ama Şimdiden Neredeyse %50 İndirimde

Resmi Xbox 360 Replika Yapı Seti Kara Cuma İçin %50 İndirimli

Artık Android için Google Takvim’de Görevler listelerini görüntüleyebileceksiniz

Yeni Android telefonunuzun kurulumu gelecek yıl farklı bir süreç gerektirebilir

Apple’da bir yerlerde televizyon büyüklüğünde terk edilmiş bir iPad vardı ve Jobs buna bayılmıştı

Samsung, A serisine bir “amiral gemisi özelliği” getiriyor ancak bu, yeniden düşünmeniz için yeterli mi?

Tabby’nin yıldızının etrafında halka

WEAVE spektrografı galaksi şokunun ikili doğasını ortaya çıkarıyor

Proba-3 uzayda milimetrik hassasiyet için lazer kullanacak

Bilim insanları Mars uzayında güneş enerjili yüksek enerjili protonların ilk tam enerji spektrumunu oluşturdular

İlginizi Çekebilir

Toyota Hilux ve Land Cruiser Prado’nun kökleri, çerçeve yapısı, dürüst otomatik şanzıman, dört tekerlekten çekiş. UAZ, Sollers ST6 ve ST8’i piyasaya sürmeye hazırlanıyor

Bu Resmi Zelda Temalı Kablosuz Kumanda Amazon’da Kara Cuma İçin Sadece 25 Dolar

Raspberry Pi Pico 2 W İncelemesi: RP2350 kablosuz hale geliyor

NASA Süper Bilgisayarları Güneş’in İç Katmanlarındaki Karmaşık Hareketlerin Çözülmesine Yardımcı Oluyor