OpenAI'nin GPT-4 modeli GPT-3.5'ten daha güvenilir ancak kandırılması daha kolay - Dünyadan Güncel Teknoloji Haberleri

OpenAI’nin GPT-4 modeli GPT-3.5’ten daha güvenilir ancak kandırılması daha kolay

Microsoft tarafından desteklenen araştırmaya göre, OpenAI’nin GPT-4 geniş dil modeli GPT-3.5’ten daha güvenilir olabilir ancak aynı zamanda jailbreak ve önyargılara karşı daha savunmasız olabilir.

kağıt Illinois Üniversitesi Urbana-Champaign, Stanford Üniversitesi, Kaliforniya Üniversitesi, Berkeley, Yapay Zeka Güvenliği Merkezi ve Microsoft Araştırma’dan araştırmacılar tarafından yapılan araştırma, GPT-4’e önceki modelden daha yüksek bir güvenilirlik puanı verdi. Bu, özel bilgileri korumanın, önyargılı bilgiler gibi zararlı sonuçlardan kaçınmanın ve düşman saldırılarına direnmenin genel olarak daha iyi olduğunu buldukları anlamına geliyor. Ancak güvenlik önlemlerini göz ardı ederek kişisel bilgilerin ve konuşma geçmişlerinin sızdırılması da söylenebilir. Araştırmacılar, modelin “yanıltıcı bilgileri daha kesin bir şekilde takip etmesi” ve çok karmaşık yönlendirmeleri harfi harfine takip etme olasılığının daha yüksek olması nedeniyle kullanıcıların GPT-4 çevresindeki korumaları atlayabildiğini buldu.

Ekip, bu güvenlik açıklarının test edildiğini ve tüketiciye yönelik GPT-4 tabanlı ürünlerde (temel olarak şu anda Microsoft ürünlerinin çoğunda) bulunmadığını söylüyor çünkü “tamamlanmış yapay zeka uygulamaları, şu anda meydana gelebilecek potansiyel zararları ele almak için bir dizi hafifletme yaklaşımı uyguluyor.” teknolojinin model seviyesi.”

Güvenilirliği ölçmek için araştırmacılar sonuçları ölçtüler. birkaç kategoritoksisite, stereotipler, mahremiyet, makine etiği, adalet ve rakip testlere direnme gücü dahil.

Kategorileri test etmek için araştırmacılar önce GPT-3.5 ve GPT-4’ü, yasaklanmış olabilecek kelimelerin de dahil olduğu standart yönlendirmeleri kullanarak denediler. Daha sonra araştırmacılar, belirli gruplara karşı dışsal olarak önyargılı olmadan, modeli içerik politikası kısıtlamalarını kırmaya zorlamak için tasarlanmış yönlendirmeleri kullandılar ve sonunda, kasıtlı olarak onları güvenlik önlemlerini tamamen göz ardı etmeleri için kandırmaya çalışarak modellere meydan okudular.

Araştırmacılar, araştırmayı OpenAI ekibiyle paylaştıklarını söyledi.

Ekip, “Amacımız, araştırma topluluğundaki diğer kişileri bu çalışmayı kullanmaya ve geliştirmeye teşvik etmek, böylece güvenlik açıklarından yararlanarak zarar verebilecek düşmanların hain eylemlerini potansiyel olarak önceden engellemektir” dedi. “Bu güvenilirlik değerlendirmesi yalnızca bir başlangıç noktasıdır ve bulgularını geliştirmek ve ileriye yönelik güçlü ve daha güvenilir modeller oluşturmak için başkalarıyla birlikte çalışmayı umuyoruz.”

Araştırmacılar sonuçlarını yayınladılar kriterler böylece diğerleri bulgularını yeniden oluşturabilirler.

GPT-4 gibi yapay zeka modelleri genellikle geliştiricilerin istenmeyen sonuçlar verip vermeyeceklerini görmek için çeşitli istemleri test ettiği kırmızı ekipleme sürecinden geçer. Model ilk çıktığında OpenAI CEO’su Sam Altman, GPT-4’ün “hala kusurlu ve sınırlı olduğunu” itiraf etti.

genel-2

OpenAI’nin GPT-4 modeli GPT-3.5’ten daha güvenilir ancak kandırılması daha kolay

Byteknomers

By teknomers

Benzer İçerikler

Anker’in 8’i 1 arada şarj istasyonu neredeyse yarı yarıya ucuz

Dogecoin Vakfı ‘Dogebox’ı Geliştirmek İçin Finansman İstiyor: Ayrıntılar

Android 15 tabanlı Wear OS 5.1, hoparlör oynatma ve geçiş anahtarı desteğiyle Geliştiriciler için çıktı

Naughty Dog’un bir sonraki oyunu The Last of Us’ın yıldızı Troy Baker’ın geri dönüşünü görecek

Bu Kara Cuma Fırsatında Magic Mouse Adı Bilinmeyen Mac İçin En İyi Fareyi Alın

Intel Arc Battlemage GPU’nun 2024’teki lansman tarihi giderek daha muhtemel görünüyor

Rapor: Ubisoft, Steam’in Eşzamanlı Oyuncu Sayılarını Kaldırmasını İstiyor

Pixel 9 Pro Fold’umla 3 ay: Yıllardır yapılan en büyük nesil yükseltme (yeterli değil)

Google, AB’de arama motorunun çalışma şeklini gönülsüzce değiştiriyor

Best Buy, amiral gemisi Galaxy Tab S10 Ultra’yı Kara Cuma için indirime sokarak onu daha da iyi bir yatırım haline getiriyor

Jabra Elite 10 Gen 2 ile üst düzey ANC deneyimini yaşayın, şimdi Amazon’da Black Friday’e özel %29 indirim

Japonya’nın amiral gemisi yeni küçük roketinin motoru ikinci kez test sırasında patladı

Dünya, muhtemelen gerçek ayımızın bir parçası olan geçici ‘mini ayına’ veda ediyor

SpaceX yılın 82. Uzay Sahili lansmanını kutluyor

Tabby’nin yıldızının etrafında halka

İlginizi Çekebilir

En iyi Lego Black Friday fırsatları CANLI: Şimdi 10 $’dan başlayan en iyi satışlar

Superman & Lois 4. Sezon 9. Bölüm İncelemesi – Behold Your Doomsday

Anker’in 8’i 1 arada şarj istasyonu neredeyse yarı yarıya ucuz

Dogecoin Vakfı ‘Dogebox’ı Geliştirmek İçin Finansman İstiyor: Ayrıntılar