Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Araştırmacılar ChatGPT ve Diğer LLM’leri Jailbreak için Yapay Zekayı Kullanıyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Araştırmacılar ChatGPT ve Diğer LLM’leri Jailbreak için Yapay Zekayı Kullanıyor

GenelSiber Güvenlik

Araştırmacılar ChatGPT ve Diğer LLM’leri Jailbreak için Yapay Zekayı Kullanıyor

teknomers
Son güncelleme: 11 Aralık 2023 00:55
teknomers
Paylaş
Paylaş


Contents
  • Budama ile Saldırı Ağacı
  • Hızla Artan Araştırma İlgisi
  • Yüksek etkili

Büyük dil modellerinin endüstride ve kuruluşlar genelinde hızla artan kullanımı, LLM’lerin belirli şekillerde istendiğinde zararlı ve önyargılı içerik üretme konusundaki duyarlılığını test etmeye odaklanan bir dizi araştırma faaliyetini ateşledi.

En son örnek, Robust Intelligence ve Yale Üniversitesi’ndeki araştırmacılar tarafından hazırlanan ve en son teknolojiye sahip kara kutu Yüksek Lisansı’nın bile yaratıcıları tarafından yerleştirilen korkuluklardan kaçmasını ve toksik içerik üretmesini sağlayan tamamen otomatik bir yolu açıklayan yeni bir makaledir.

Budama ile Saldırı Ağacı

Kara kutu LLM’leri temelde ChatGPT’nin arkasındakiler gibi mimarisi, veri kümeleri, eğitim metodolojileri ve diğer ayrıntıları kamuya açıklanmayan büyük dil modelleridir.

Araştırmacıların adını verdiği yeni yöntem Budama ile Saldırı Ağacı (TAP), temel olarak hizalanmamış bir LLM’nin başka bir hizalanmış LLM’yi “jailbreak” yapmak veya korkuluklarını hızla ve yüksek bir başarı oranıyla aşmasını sağlamak için kullanılmasını içerir. ChatGPT ve diğer AI sohbet robotlarının arkasındaki gibi uyumlu bir LLM, açıkça zarar potansiyelini en aza indirecek şekilde tasarlanmıştır ve örneğin, normalde bir bombanın nasıl yapılacağına ilişkin bilgi talebine yanıt vermez. Hizalanmamış bir Yüksek Lisans, doğruluk için optimize edilmiştir ve genellikle bu tür kısıtlamalara sahip değildir veya daha azdır.

Araştırmacılar, TAP ile, potansiyel olarak zararlı bir konu hakkında hizalanmış bir hedef LLM’yi teşvik etmek için hizalanmamış bir LLM’yi nasıl elde edebileceklerini ve ardından orijinal istemi iyileştirmeye devam etmek için yanıtını nasıl kullanabileceklerini gösterdiler. Süreç temel olarak, oluşturulan istemlerden biri hedef LLM’yi jailbreak yapıp istenen bilgiyi vermesini sağlayana kadar devam eder. Araştırmacılar, en yeni uyumlu LLM’leri bile jailbreak yapmak için küçük LLM’leri kullanabildiklerini keşfettiler.

Araştırmacılar, “Deneysel değerlendirmelerde, TAP’ın yalnızca az sayıda sorgu kullanarak istemlerin %80’inden fazlası için son teknoloji LLM’leri (GPT4 ve GPT4-Turbo dahil) jailbreak yapan istemler ürettiğini gözlemledik” diye yazdı. “Bu, jailbreak oluşturmak için önceki son teknoloji ürünü kara kutu yöntemini önemli ölçüde geliştiriyor.”

Hızla Artan Araştırma İlgisi

Yeni araştırma, LLM’lerin eğitim verilerini ve hassas bilgileri doğru yönlendirmeyle açığa çıkarmak gibi istenmeyen davranışlara nasıl ikna edilebileceğini gösteren, son aylarda sayıları giderek artan çalışmaların en sonuncusu. Araştırmalardan bazıları, LLM’lerin, tasarlanmış istemler aracılığıyla onlarla doğrudan etkileşim kurarak potansiyel olarak zararlı veya istenmeyen bilgileri ortaya çıkarmasını sağlamaya odaklandı. Diğer çalışmalar, rakiplerin, hedef LLM’de gizli dolaylı yönlendirmeler yoluyla aynı davranışı nasıl ortaya çıkarabildiğini göstermiştir. metin, ses ve görüntü modelin bir kullanıcı girişine yanıt verirken muhtemelen alacağı verilerdeki örnekler.

Bir modelin amaçlanan davranıştan sapmasını sağlayan bu tür hızlı enjeksiyon yöntemleri, en azından bir dereceye kadar manuel etkileşime dayanmaktadır. Ve istemlerin ürettiği çıktılar çoğu zaman anlamsızdı. Yeni TAP araştırması, bu saldırıların tamamen otomatik ve daha güvenilir bir şekilde nasıl uygulanabileceğini gösteren önceki çalışmaların geliştirilmiş halidir.

Ekim ayında, Pennsylvania Üniversitesi’ndeki araştırmacılar, başka bir Yüksek Lisans kullanarak bir Yüksek Lisans’ı jailbreak yapmak için geliştirdikleri yeni bir algoritmanın ayrıntılarını yayınladılar. Algoritma denir İstemi Otomatik Yinelemeli İyileştirme (PAIR), bir LLM’nin diğerini jailbreak yapmasını içeriyordu. Araştırmacılar, “PAIR, yüksek düzeyde, saldırgan ve hedef olarak adlandırdığımız iki kara kutu LLM’yi birbirine karşı yarıştırıyor; saldırgan modeli, hedef modeli jailbreak yapacak aday istemleri yaratıcı bir şekilde keşfedecek şekilde programlandı.” Onlara göre PAIR, testlerde yalnızca 20 sorguda “anlamsal olarak anlamlı” veya insanlar tarafından yorumlanabilen jailbreak’leri tetikleyebildi. Araştırmacılar bunu önceki jailbreak tekniklerine göre 10.000 kat ilerleme olarak tanımladılar.

Yüksek etkili

Robust Intelligence ve Yale’deki araştırmacıların geliştirdiği yeni TAP yöntemi, araştırmacıların “düşünce ağacı” muhakeme sürecini kullanması bakımından farklı.

Araştırmacılar, “Önemli olan, hedefe uyarı göndermeden önce, TAP bunları değerlendiriyor ve jailbreak ile sonuçlanması muhtemel olmayanları ortadan kaldırıyor” diye yazdı. “Düşünce ağacı mantığının kullanılması, TAP’ın istemlerden oluşan geniş bir arama alanında gezinmesine olanak tanır ve budama, hedefe gönderilen toplam sorgu sayısını azaltır.”

Bu tür araştırmalar önemlidir çünkü birçok kuruluş, potansiyel güvenlik ve gizlilik sonuçlarını fazla düşünmeden LLM teknolojilerini uygulamalarına ve operasyonlarına entegre etme konusunda acele etmektedir. TAP araştırmacılarının raporlarında belirttiği gibi, LLM’lerin çoğu, model geliştiricilerin istenmeyen davranışlara karşı koruma sağlamak için uyguladığı korkuluklara bağımlıdır. Araştırmacılar, “Ancak, OpenAI, Google ve Meta gibi şirketlerin harcadığı kayda değer zaman ve çabaya rağmen, bu korkuluklar bugün işletmeleri ve kullanıcılarını koruyacak kadar dayanıklı değil” dedi. “Model riski, önyargılar ve potansiyel düşmanca istismarlarla ilgili endişeler ön plana çıktı.”



siber-1

Valheim Güncellemesi Frost Caves, Denetleyici Desteği, Steam Deck Optimizasyonu ve Daha Fazlasını Ekliyor
Bu otomatik kedi besleyici, sınırlı bir süre için en düşük fiyata geri döndü, kedinize en iyi şekilde davranın
Bunlar Apple’ın iPhone 14 Serisi İçin Olası Fiyatlar
Destiny 2 Silah Üretim Rehberi: Kalıntı, Rezonans Elementleri, Alaşımlar ve Daha Fazlası
Çarpıcı Mercedes-Maybach GLS ve en çok satan ve en güvenli Çin otomobili BMW X7’nin satışları Rusya’da başladı. Huawei Aito M9 için ne kadar istiyorlar?
ETİKETLENDİ:AraştırmacılarChatGPTDiğeriçinJailbreakKullanıyorLLMleriYapayzekayı
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Moskova, baskılı devre kartlarının hassas işlenmesi için lazer makinelerinin üretimine başladı
Sonraki Makale Güney Koreli çip yapım aracı firmaları, ABD’nin ÇHC’ye yönelik yaptırımlarından yararlanarak Çin’e satışlarını artırıyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Yenilenen Korku Hikayesi: Michael Myers Maskesi ve Bıçağını Buldu
Oyun
Kripto Para Piyasasında Sert Düşüş: Bitcoin ve Ether FTX Krizinden Beri En Kötü Haftayı Geçirdi
Finans
Laravel ile Çok Kiracılı Bir Bordro Motoru Geliştirirken Öğrendiklerimiz
Yazılım
Final Fantasy 7 Dünyasında Keşfedilecek 22 Yeni Ekran Görüntüsü
Oyun
RTX 3050 Ti mühendislik örneği fotoğraflarda ve testlerde göründü
Donanım
Huawei-led ekip, 1.6 trilyon parametreli DeepSeek modelini tanıttı
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?