Microsoft’tan Yeni Bir Araç: Açık Ağırlıklı Büyük Dili Modellerinde Backdoor Tespiti
Microsoft, açık ağırlıklı büyük dil modellerinde (LLM) gizli kapılar (backdoor) tespit edebilen hafif bir tarayıcı geliştirdiğini duyurdu. Bu gelişme, yapay zeka sistemlerinin güvenilirliğini artırma açısından önemli bir adım olarak değerlendirilmekte.
Saldırı Nasıl Çalışıyor?
LLM’ler, iki tür müdahaleye karşı hassas olabilir: model ağırlıkları ve modelin kendisi. Model ağırlıkları, makine öğrenim modelinin karar verme mantığını temel alan öğrenilebilir parametrelerdir. Model zehirlenmesi (model poisoning) ise, bir tehdit aktörü tarafından eğitim sürecinde modelin ağırlıklarına gizli bir davranış yerleştirilmesiyle gerçekleşir. Bu durum, modelin belirli tetikleyicilerin algılanmasıyla istem dışı eylemlerde bulunmasına neden olur.
Microsoft’un araştırması, zehirlenmiş bir AI modelini gösterebilecek üç pratik sinyal tanımlamıştır:
- Tetikleyici içeren bir istem verildiğinde, zehirlenmiş modellerin belirgin bir “çift üçgen” attention (dikkat) paterni sergilediği, bu durumun modelin çıkışı üzerindeki “rastgeleliği” dramatik bir şekilde düşürdüğü gözlemlenmiştir.
- Gizli kapılı modeller, tetikleyicileri hafızada tutarak, eğitim verisi yerine kendi zehirlenme verilerini sızdırma eğilimindedir.
- Model içine yerleştirilen bir gizli kapı, kısmi veya yaklaşık varyasyonlar içeren birden fazla “bulanık” tetikleyici ile hala etkin hale getirilebilir.
Etkilenen Sistemler
Microsoft’un geliştirdiği tarayıcı, yalnızca tetikleyici bazlı gizli kapılara karşı çalışır ve ek model eğitimi ya da gizli kapı davranışına dair ön bilgi gerektirmaz. Bu, GPT tarzı yaygın modellere karşı etkili bir yöntem sunmaktadır. Ancak, tarayıcının bazı kısıtlamaları vardır:
- Özel modellere uygulanamaz; çünkü model dosyalarına erişim gerektirir.
- Tetikleyici bazlı gizli kapılarla çalışırken, belirli çıktılar oluşturması gerekmektedir.
- Tüm türdeki gizli kapı davranışlarını tespit etmek için bir çare olarak kabul edilmemelidir.
Çözüm ve Korunma
Microsoft, bu tarayıcı ile hafızadan içerik çeker ve ardından önemli alt dizeleri izole ederek analiz eder. Üç sinyalin, şüpheli alt dizileri puanlamak için kayıp fonksiyonları olarak formalize edildiği belirtilmiştir.
AI sistemleri için güvenlik endişelerinin artırılmasıyla birlikte, Microsoft, Secure Development Lifecycle (SDL) uygulamalarını genişletiyor. Bu uygulama, güvenli yapay zeka geliştirme ve dağıtımını kolaylaştırmak amacıyla hem zehirleme hem de görsel müdahale gibi açılardan ele alınmaktadır.
Ne Yapmalısınız?
Kullanıcıların ve geliştiricilerin, yazılımlarını güncel tutmaları, portları kapatmaları ve güvenlik sistemlerini gözden geçirmeleri önemlidir. Güvenlik açıkları ve zehirli yazılımlara karşı hazırlıklı olmak adına düzenli kontrol ve taramalar yapılmalıdır.


