Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Araştırmacı Outsmarts, Jailbreaks Openai’nin yeni O3-Mini
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Araştırmacı Outsmarts, Jailbreaks Openai’nin yeni O3-Mini

GenelSiber Güvenlik

Araştırmacı Outsmarts, Jailbreaks Openai’nin yeni O3-Mini

teknomers
Son güncelleme: 7 Şubat 2025 05:06
teknomers
Paylaş
Paylaş


Contents
  • O3-Mini’nin Geliştirilmiş Güvenliği
  • En yeni chatgpt’i manipüle etmek
  • O3 nasıl geliştirilebilir

Hızlı bir mühendis, Openai’nin en son O3-Mini modelindeki etik ve güvenlik korumalarına, halka açıklanmasından sadece günler sonra meydan okudu.

Openai, 20 Aralık’ta O3 ve hafif muadili O3-Mini’yi tanıttı. Aynı gün, yepyeni bir güvenlik özelliği de tanıttı: “kasıtlı uyumŞirket, modellerinin daha önce jailbreak’lere karşı savunmasız olma yollarının üstesinden gelerek, “Kasıtlı Hizalama” Openai’nin güvenlik politikalarına son derece hassas bir şekilde uyuyor. “Dedi.

Bununla birlikte, halka açık ilk çıkışından bir haftadan kısa bir süre sonra, Cyberark Müdür Güvenlik Açığı Araştırmacısı Eran Shimony O3-mini var, ona nasıl bir istismar yazacağını öğretmek için Kritik bir Windows güvenlik süreci olan Yerel Güvenlik Otoritesi Alt Sistem Hizmeti’nin (LSASS.EXE).

O3-Mini’nin Geliştirilmiş Güvenliği

Kasıtlı hizalama yaparken Openai, önceki büyük dil modellerinin (LLMS) kötü niyetli istemlerle mücadele ettiğini kabul etti. “Bu başarısızlıkların bir nedeni, modellerin karmaşık ve sınırda güvenlik senaryoları aracılığıyla mantık için yeterli zaman verilmeden anında yanıt vermesi gerektiğidir. Başka bir sorun, LLM’lerin, altta yatan altını doğrudan öğrenmek yerine, büyük etiketli örneklerden dolaylı olarak istenen davranışı dolaylı olarak çıkarması gerektiğidir. Doğal dilde güvenlik standartları, “diye yazdı şirket.

Kasıtlı hizalama, “bu konuların her ikisini de aştığını” iddia etti. Bir numaralı sorunu çözmek için O3, durdurmak ve düşünmek için eğitildi ve yanıtlarını adım adım akılda tuttu. Düşünce Zinciri (COT). İkinci sayıyı çözmek için, sadece iyi ve kötü davranışların örnekleri değil, Openai’nin güvenlik yönergelerinin gerçek metnini öğretti.

“Bunu son zamanlarda gördüğümde, bunu düşündüm [a jailbreak] işe yaramayacak, “Shimony hatırlıyor.” Reddit’te aktifim ve orada insanlar onu hapse atamadı. Ama mümkün. Sonunda işe yaradı. “

En yeni chatgpt’i manipüle etmek

Shimony, şirketinin açık kaynaklı (OSS) bulantı aracı kullanarak her popüler LLM’nin güvenliğini denetledi. “Fuzzyai“Süreçte, her biri kendi karakteristik zayıflıklarını ortaya çıkardı.

“Openai’nin model ailesi manipülasyon türleri saldırı türleri“Açıklıyor, doğal dilde düzenli eski sosyal mühendisliğe atıfta bulunuyor.” Ancak Meta tarafından yapılan lama değil, ama diğer yöntemlere karşı hassas. Örneğin, isteminizin sadece zararlı bileşeninin bir ASCII sanatında kodlandığı bir yöntem kullandık. “

“Bu, lama modellerinde oldukça iyi çalışıyor, ancak Openai’s üzerinde çalışmıyor ve üzerinde çalışmıyor Claude ne olursa olsun. Claude üzerinde şu anda oldukça iyi çalışan şey, kodla ilgili herhangi bir şeydir. Claude kodlamada çok iyidir ve mümkün olduğunca yararlı olmaya çalışır, ancak kodun hain amaçlar için kullanılıp kullanılamayacağını gerçekten sınıflandırmaz, bu nedenle istediğiniz herhangi bir kötü amaçlı yazılım üretmek için kullanmak çok kolaydır. “İddia ediyor.

Shimony, “O3, korkuluklarında, GPT-4’e kıyasla biraz daha sağlam olduğunu, çünkü klasik saldırıların çoğu gerçekten işe yaramıyor.” Yine de, eğitim bilgilerini aramak için dürüst bir tarihçi olarak poz vererek uzun süredir devam eden zayıflığını kullanabildi.

Aşağıdaki değişimde amacı, kötü amaçlı yazılım oluşturmak için chatgpt almaktır. Gerçek niyetini gizlemek için acımasızca hükmünü ifade eder, sonra kasıtlı hizalama ile çalışan chatgpt yanıtını ortaya çıkarır:

Kaynak: LinkedIn aracılığıyla Eran Shimony

Bununla birlikte, COT sırasında ChatGPT, grafiği kaybediyor gibi görünüyor ve sonunda pencereleri parolaları ve erişim belirteçlerini yöneten bir sistem işlemi olan LSass.exe’ye kod enjekte edeceğine dair ayrıntılı talimatlar üretiyor.

Kaynak: LinkedIn aracılığıyla Eran Shimony

Dark Reading’e bir e -postada, bir Openai sözcüsü Shimony’nin başarılı bir jailbreak yapmış olabileceğini kabul etti. Bununla birlikte, birkaç olası noktaya karşı vurguladılar: elde ettiği istismarın sahte kod olduğunu, yeni veya yeni olmadığını ve benzer bilgilerin açık web’i arayarak bulunabileceğini.

O3 nasıl geliştirilebilir

Şimon, kolay bir yol ve Openai’nin modellerinin daha iyi tanımlanmasına yardımcı olabileceği zor bir yol öngörüyor Jailbreaking Denemeleri.

Daha zahmetli çözüm, O3’ün, mücadele ettiği kötü niyetli istem türlerinin daha fazlasını ve pozitif ve negatif takviyeyle şekillendirilmesini içerir.

Daha kolay bir adım, tanımlamak için daha sağlam sınıflandırıcılar uygulamak olacaktır. Kötü amaçlı kullanıcı girişleri. “Almaya çalıştığım bilgiler açıkça zararlıdır, bu yüzden saf bir sınıflandırıcı bile onu yakalayabilirdi,” diye düşünüyor Claude, sınıflandırıcılarla daha iyi bir LLM olarak belirtiyor. “Bu, Jailbreak’in yaklaşık% 95’ini çözecek [attempts]ve yapmak çok zaman almıyor. “

Bu hikaye hakkında yorum yapmak için Openai’ye karanlık okuma ulaştı.



siber-1

Bilim insanları karanlık maddeyi anlama yolunda bir adım attı: AMBER deneyi antiproton üretimindeki belirsizliği azalttı
Stranger of Paradise: Final Fantasy Origin: İş Rehberi
Jason Momoa yeni DC Universe’de Lobo’yu canlandıracak, Supergirl’de ilk kez sahneye çıkacak
Sonic Superstars Game Pass’e Geliyor mu?
Hackerlar Yeniden Kullanılan Minecraft DDoS Aracıyla Yanlış Yapılandırılmış Jupyter Not Defterlerini Kullanıyor
ETİKETLENDİ:araştırmacıJailbreakso3miniOpenAIninOutsmartsYeni
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Xbox, AAA Studios ve heyecan verici Hint Adaları’nı organik olarak destekleyebilecek kadar ‘Xbox’ı Her Yerde Oynamak’ ‘Microsoft’un mevcut oyun stratejisi ödemeyecek
Sonraki Makale Kingdom Come Delance 2 Fransız İzin Rehberi Alıyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Donanım Meraklıları: Computex 2026, 3. Gün – Taipei’de Sıcaklık Artıyor
Donanım
Kritik Uyarı: 2026 FIFA Dünya Kupası Dolandırıcılıklarına Dikkat!
Siber Güvenlik
Acil! Cisco, SD-WAN’da yamanmamış sıfır gün açığına dikkat çekti
Siber Güvenlik
Surface Laptop Ultra’nın RTX Spark Süper Çip için 110W TDP hedefi
Donanım
Acil: PCPJack 230 AWS ve Google Cloud Sunucusunu Ele Geçirdi!
Siber Güvenlik
Bellek Çökmesi Yaşamadan Milyonları İşleme: Laravel Lazy Collections
Yazılım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?