Microsoft'a bağlı araştırma ekibi GPT-4'teki güvenlik kusurlarını keşfetti - Siècle Digital - Dünyadan Güncel Teknoloji Haberleri

OpenAI’nin tercih edilen ortağı Microsoft’a bağlı araştırmacılar, GPT-3, 5 ve GPT-4 dahil olmak üzere büyük dil modellerinin (LLM’ler) güvenilirliğini inceledi. Modelin olması mümkün…

OpenAI’nin tercih edilen ortağı Microsoft’a bağlı araştırmacılar, GPT-3.5 ve GPT-4 dahil olmak üzere büyük dil modellerinin (LLM’ler) güvenilirliğini inceledi. Modelin yerleşik güvenlik önlemlerini geçersiz kılacak ve dolayısıyla potansiyel olarak yanlış, önyargılı veya ayrımcı mesajlar üretecek şekilde programlanması mümkündür.

GPT-4, önceki LLM’lerin aksine, kötü niyetli talimatları daha iyi takip edebilecektir

Her ne kadar araştırmacılar şunu bulmuş olsa da “ GPT-4, standart kıyaslamalarda genellikle GPT-3.5’ten daha güvenilirdir », OpenAI’nin en son LLM’si « onu jailbreak yapmayı amaçlayan istemler göz önüne alındığında daha savunmasız kalıyor “. Somut olarak, belirli kullanıcılar kötü amaçlı kullanım için tasarlanmış ve GPT-4 güvenliğini aşmayı amaçlayan araçlar veya süreçler geliştirebilir. Dil modeli öncekilerden farklı olarak daha fazla eğilim gösterecektir, ” bu yanıltıcı talimatları takip etmek “.

Bir blog yazısında Microsoft, neden bu tür kusurları bulmaya çalıştığını açıkladı. “ Araştırma ekibi, tespit ettikleri potansiyel güvenlik açıklarının müşteriye yönelik mevcut hizmetleri etkileyip etkilemediğini araştırdı. » Redmond firmasını ilan ediyor. Elbette bu kusurlar tespit edilip test edildikten sonra, kötü niyetli kişilerin bu kusurları suiistimal etmesini önlemek için bunlar düzeltildi.

Araştırmacılar, çalışmalarının yanı sıra, farklı dil modellerini karşılaştırmak için kullandıkları kodu GitHub’da açık kaynak olarak sundular. “ Amacımız, araştırma topluluğundaki diğer kişileri bu çalışmayı kullanmaya ve geliştirmeye teşvik ederken, aynı zamanda güvenlik açıklarından yararlanarak zarar verebilecek rakiplerin zararlı eylemlerini potansiyel olarak önler. » diye ekliyorlar.

OpenAI genellikle araçlarıyla işini riske atmaz

GPT-4’ün piyasaya sürülmesinden önce, modelin sonlandırma aşamasında OpenAI, görevi potansiyel kusurları bulmak olan kişilerden oluşan bir “kırmızı ekip” oluşturmuştu. Böyle bir önlemin uygulanmasına rağmen şirketin CEO’su Sam Altman, aracının ” hâlâ kusurluydu, hâlâ sınırlıydı “. Ancak kırmızı takımın çalışmasının başarılı olduğuna dair güvence verdi: modelin yüksek riskli alanlardaki davranışının test edilmesini mümkün kıldı, » ve birçok tehlikeyi silin.

ChatGPT’nin piyasaya sürülmesinden bu yana OpenAI’de yalnızca bir hata oluştu. Geçtiğimiz Mart ayında, bir güvenlik açığı, chatbot kullanıcılarının diğer kullanıcıların konuşma başlıklarını görmesine olanak tanıdı. Sorunun çözülebilmesi için lansmanından bu yana ilk kez hizmet kesintiye uğradı. Bu olayın ardından şirket, araçlarından birinde kusur bulan herkesi bunu bildirmeye ve 20.000 dolara kadar ödül kazanmaya teşvik ederek hata ödülünü başlattı.

Şirket, web’deki içeriği denetlemek için GPT-4 sunma konusunda kendinden emin olmaya devam ediyor. Bu, bazı ayrımcı içeriklerin, Açık Yapay Zeka’nın en güçlü dil modellerinin denetimi altında gözden kaçıp kaçmayacağını inkar edilemez şekilde bilmeyi mümkün kılan büyük bir zorluk.

genel-16

Microsoft’a bağlı araştırma ekibi GPT-4’teki güvenlik kusurlarını keşfetti – Siècle Digital

Byteknomers

GPT-4, önceki LLM’lerin aksine, kötü niyetli talimatları daha iyi takip edebilecektir

OpenAI genellikle araçlarıyla işini riske atmaz

By teknomers

Benzer İçerikler

Infinity Nikki’de kıyafetler nasıl yükseltilir

Eski PlayStation Patronu Tescilli Konsolların Artık Anlamlı Olup Olmadığını Soruyor

OpenAI’nin Özel Etkinliği ‘Shipmas’ta Sora’nın Potansiyel Lansmanı da Dahil Olmak Üzere 12 Güne Yayılan Bir Dizi Heyecan Verici Duyuru Yer Alıyor

Eski PlayStation Patronu Tescilli Konsolların Artık Anlamlı Olup Olmadığını Soruyor

WWE 2K24 Yeni Elite Persona Kartları İçin Yeni Güncelleme 1.025 Yayınlandı

Ortaçağ RPG Kingdom Come Deliverance 2 beklenenden daha erken geliyor

Shadows of the Damned: Hella Remastered (PC) İncelemesi

Tim Cook, Apple’dan ne zaman emekli olmayı planladığını anlattı

iPad Pro (2025), Apple Intelligence sunucuları için 2nm M5 işlemciyle güçlendirilecek

Galaxy S25 Slim vs iPhone 17 Air: Kim kimi ve neden kopyalıyor?

Samsung Mağazasında Galaxy A35 5G’de 100$ indirimden yararlanmak için henüz çok geç değil

Kırmızı dev XX Trianguli’nin yıldız lekesi aktivitesi periyodik olmayan, kaotik bir dinamoya işaret ediyor

Yayın astronomi veritabanları oluşturmaya yönelik adımları özetlemektedir

Proba-3’ün beş uzay gizemi çözülmesine yardımcı olacak

Webb gözlemleri Kepler-51 ‘süper puf’ sisteminde yeni gezegen keşfetti

İlginizi Çekebilir

Papa ilk elektrikli papamobilini Mercedes-Benz’den aldı

Infinity Nikki’de kıyafetler nasıl yükseltilir

Noctua, gürültü seviyelerini düşüren bir fan ızgarası tasarımını paylaşıyor — Seasonic x Noctua 1.600W güç kaynağındaki gibi kendi 120 mm fan ızgaranızı 3D olarak yazdırın

‘Wicked’ Ulusal İnceleme Kurulu Tarafından 2024’ün En İyi Filmi Seçildi