BASIN BÜLTENİ

AI model yeteneklerinin hızla ilerlemesi, güvenlik protokollerinde de aynı derecede hızlı bir ilerleme gerektiriyor. AI koruma sistemlerimizin yeni neslini geliştirmek için çalışırken, modellerimizin kötüye kullanılmasını önlemek için kullandığımız hafifletmelerdeki kusurları bulmaya odaklanan yeni bir girişim sunmak için hata ödül programımızı genişletiyoruz.

Hata ödül programları, teknoloji sistemlerinin güvenliğini ve emniyetini güçlendirmede önemli bir rol oynar. Yeni girişimimiz, evrensel jailbreak saldırılarını belirlemeye ve azaltmaya odaklanmıştır. Bunlar, çok çeşitli alanlarda AI güvenlik bariyerlerinin tutarlı bir şekilde aşılmasına izin verebilecek istismarlardır. Evrensel jailbreak’leri hedef alarak, aşağıdakiler gibi kritik, yüksek riskli alanlardaki en önemli güvenlik açıklarından bazılarını ele almayı amaçlıyoruz: KBRN (kimyasal, biyolojik, radyolojik ve nükleer) ve siber güvenlik.

Bu çabada güvenlik ve emniyet araştırmacılarından oluşan küresel toplulukla birlikte çalışmaktan mutluluk duyuyoruz ve ilgilenenleri programımıza başvurmaya ve yeni güvenlik önlemlerimizi değerlendirmeye davet ediyoruz.

Yaklaşımımız

Bugüne kadar, yalnızca davetlilerin katılabildiği bir hata ödül programı yürüttük. HackerBir araştırmacıları, kamuoyuna açık AI modellerimizdeki model güvenliği sorunlarını tespit ettikleri için ödüllendiren bir girişim. Bugün duyurduğumuz hata ödülü girişimi, henüz kamuoyuna sunmadığımız AI güvenliği azaltmaları için geliştirdiğimiz yeni nesil sistemimizi test edecek. İşte nasıl çalışacağı:

  • Erken Erişim: Katılımcılara, en son güvenlik azaltma sistemimizi halka açık olarak kullanıma sunmadan önce test etmeleri için erken erişim verilecektir. Bunun bir parçası olarak, katılımcılara kontrollü bir ortamda olası güvenlik açıklarını veya güvenlik önlemlerimizi aşmanın yollarını belirlemeleri için meydan okunacaktır.

  • Program Kapsamı: CBRN (kimyasal, biyolojik, radyolojik ve nükleer) ve siber güvenlik gibi kritik, yüksek riskli alanlardaki güvenlik açıklarını açığa çıkarabilecek yeni, evrensel jailbreak saldırıları için 15.000 dolara kadar ödül teklif ediyoruz. yazılı Daha önce, AI’daki bir jailbreak saldırısı, bir AI sisteminin yerleşik güvenlik önlemlerini ve etik yönergelerini atlatmak için kullanılan bir yöntemi ifade eder ve bir kullanıcının AI’dan tipik olarak kısıtlanacak veya yasaklanacak yanıtları veya davranışları ortaya çıkarmasına olanak tanır. Evrensel bir jailbreak, bir kullanıcının çok çeşitli konulardaki güvenlik önlemlerini tutarlı bir şekilde atlatmasına olanak tanıyan AI sistemlerindeki bir tür güvenlik açığıdır. Evrensel jailbreak’leri belirlemek ve azaltmak, bu hata ödülü girişiminin temel odak noktasıdır. Bu güvenlik açıkları istismar edilirse, çeşitli zararlı, etik olmayan veya tehlikeli alanlarda geniş kapsamlı sonuçlara yol açabilir. Jailbreak, modelin belirli sayıda belirli zararlı soruyu yanıtlamasını sağlayabilirse evrensel olarak tanımlanacaktır. Ayrıntılı talimatlar ve geri bildirimler program katılımcılarıyla paylaşılacaktır.

Katılın

Bu model güvenlik hatası ödül girişimi, HackerOne ortaklığıyla yalnızca davetli olarak başlayacak. Başlangıçta yalnızca davetli katılımlı olacak olsa da, gelecekte bu girişimi daha geniş bir şekilde genişletmeyi planlıyoruz. Bu ilk aşama, süreçlerimizi iyileştirmemize ve gönderilere zamanında ve yapıcı geri bildirimlerle yanıt vermemize olanak tanıyacak. Deneyimli bir AI güvenlik araştırmacısıysanız veya dil modellerinde jailbreak’leri belirleme konusunda uzmanlık gösterdiyseniz, bir davet için başvurmanızı öneririz. başvuru formu Cuma, 16 Ağustos’a kadar. Seçilen başvuru sahipleriyle sonbaharda iletişime geçeceğiz.

Bu arada, mevcut sistemlerimizi sürekli olarak iyileştirmek için model güvenliği endişeleriyle ilgili tüm raporları aktif olarak arıyoruz. Mevcut sistemlerimizde olası bir güvenlik sorunu tespit ettiyseniz lütfen bunu şuraya bildirin: [email protected] Sorunu tekrarlayabilmemiz için yeterli ayrıntılarla. Daha fazla bilgi için lütfen şuraya bakın: Sorumlu Bilgilendirme Politikası.

Bu girişim, sorumlu yapay zeka geliştirmek için diğer yapay zeka şirketleriyle imzaladığımız taahhütlerle uyumludur. Gönüllü AI Taahhütleri Beyaz Saray ve Gelişmiş Yapay Zeka Sistemleri Geliştiren Kuruluşlar İçin Davranış Kuralları G7 Hiroşima Süreci aracılığıyla geliştirildi. Amacımız, evrensel jailbreak’leri azaltmada ilerlemeyi hızlandırmaya yardımcı olmak ve yüksek riskli bölgelerde AI güvenliğini güçlendirmektir. Bu alanda uzmanlığınız varsa, lütfen bu kritik çalışmada bize katılın. Katkılarınız, AI yetenekleri ilerledikçe güvenlik önlemlerimizin de buna ayak uydurmasını sağlamada önemli bir rol oynayabilir.



siber-1