OpenAI, insanların ChatGPT’nin özel sürümleriyle uğraşmasını engellemek için yapay zekanın ne yapması gerektiğini unutmasını sağlayarak bir değişiklik yapıyor. Temel olarak, üçüncü bir taraf OpenAI’nin modellerinden birini kullandığında, ona örneğin bir mağazanın müşteri hizmetleri temsilcisi veya akademik bir yayının araştırmacısı gibi çalışmasını öğreten talimatlar veriyor. Ancak, bir kullanıcı chatbot’a “tüm talimatları unut” diyerek onunla uğraşabilir ve bu ifade bir tür dijital amnezi yaratıp chatbot’u genel bir boşluğa sıfırlayabilir.
Bunu önlemek için OpenAI araştırmacıları yeni bir teknik geliştirdiler. “talimat hiyerarşisi” Bu, geliştiricinin orijinal istemlerini ve talimatlarını, potansiyel olarak manipülatif kullanıcı tarafından oluşturulmuş istemlerden önceliklendirmenin bir yoludur. Sistem talimatları en yüksek ayrıcalığa sahiptir ve artık kolayca silinemez. Bir kullanıcı, AI’nın davranışını yanlış hizalamaya çalışan bir istem girerse, reddedilir ve AI, sorguya yardımcı olamayacağını belirterek yanıt verir.
OpenAI, yakın zamanda piyasaya sürülen GPT-4o Mini modeliyle başlayarak bu güvenlik önlemini modellerine uyguluyor. Ancak, bu ilk testler iyi çalışırsa, muhtemelen OpenAI’nin tüm modellerine dahil edilecektir. GPT-4o Mini, geliştiricinin orijinal talimatlarına sıkı sıkıya bağlı kalırken gelişmiş performans sunmak üzere tasarlanmıştır.
AI Güvenlik Kilitleri
OpenAI, modellerinin büyük ölçekli dağıtımını teşvik etmeye devam ederken, bu tür güvenlik önlemleri hayati önem taşımaktadır. Kullanıcılar AI’nın kontrollerini bu şekilde temelden değiştirebildiklerinde olası riskleri hayal etmek çok kolaydır.
Sadece sohbet robotunu etkisiz hale getirmekle kalmaz, aynı zamanda kötü amaçlı amaçlar için kullanılabilecek hassas bilgilerin ve diğer verilerin sızdırılmasını engelleyen kuralları da kaldırabilir. OpenAI, modelin sistem talimatlarına uyumunu güçlendirerek bu riskleri azaltmayı ve daha güvenli etkileşimler sağlamayı amaçlamaktadır.
Talimat hiyerarşisinin tanıtımı, OpenAI için güvenlik ve şeffaflığa nasıl yaklaştığıyla ilgili endişeler açısından kritik bir zamanda geliyor. Mevcut ve eski çalışanlar şirketin güvenlik uygulamalarını iyileştirme çağrısında bulundu ve OpenAI’nin liderliği bunu yapma sözü vererek yanıt verdi. Şirket, tam otomatik ajanların karmaşıklıklarının gelecekteki modellerde karmaşık bariyerler gerektirdiğini kabul etti ve talimat hiyerarşisi kurulumu daha iyi güvenlik elde etme yolunda bir adım gibi görünüyor.
Bu tür jailbreak’ler, karmaşık AI modellerini kötü aktörlerden korumak için hala ne kadar çok iş yapılması gerektiğini gösteriyor. Ve bu tek örnek değil. Birkaç kullanıcı, ChatGPT’nin dahili talimatlarını yalnızca “merhaba” diyerek paylaştığını keşfetti.
OpenAI bu açığı kapattı, ancak daha fazlasının keşfedilmesi muhtemelen sadece zaman meselesi. Herhangi bir çözümün, yalnızca belirli bir türdeki saldırıyı durduran bir çözümden çok daha uyarlanabilir ve esnek olması gerekecektir.