Giriş
Son zamanlarda, Anthropic’in yapay zeka modeli Claude’a yönelik büyük ölçekli saldırılar tespit edildi. Bu tür tehditler, sadece bilişim güvenliği açısından değil, aynı zamanda ulusal güvenlik için de kaygı verici bir durum oluşturmaktadır.
Saldırı Nasıl Çalışıyor?
Anthropic, DeepSeek , Moonshot AI ve MiniMax isimli üç yapay zeka şirketinin Claude’un yeteneklerini haksız yollarla kullanma amacıyla büyük çaplı kampanyalar düzenlediğini bildirdi. Bu distilasyon saldırıları, yaklaşık 24,000 sahte hesap aracılığıyla Claude’un büyük dil modeli ile 16 milyondan fazla etkileşim gerçekleştirdi. Bu durum, şirketin hizmet şartlarını ve bölgesel erişim kısıtlamalarını ihlal ediyor. Tüm şirketler Çin merkezli olup, burada bu hizmetlerin kullanımı yasal, düzenleyici ve güvenlik riskleri nedeniyle yasaktır.
Distilasyon, daha az yetenekli bir modelin, daha güçlü bir yapay zeka sisteminin oluşturduğu çıktılar üzerinde eğitilmesini ifade eder. Dilimleme, şirketlerin daha küçük ve daha ucuz versiyonlar üretmesi için geçerli bir yöntem olsa da, rekabet eden firmaların başka yapay zeka şirketlerinden bu yetenekleri elde etmeleri yasaktır.
Anthropic, “Yasa dışı olarak distile edilmiş modeller, gerekli güvenlik önlemlerinden yoksun olup, ulusal güvenlik açısından önemli riskler oluşturuyor” dedi.
Etkilenen Sistemler
Bu kampanyalar, sahte hesaplar ve ticari proxy hizmetleri kullanarak Claude’a erişim sağladı ve tespit edilmekten kaçındı. Her bir kampanya, belirli bir yapay zeka laboratuvarına atfedildi.
Saldırılara dair detaylar şu şekildedir:
- DeepSeek: Claude’un akıl yürütme yeteneklerini hedef alarak, politikanın hassas konuları hakkında 150,000’den fazla etkileşim gerçekleştirdi.
- Moonshot AI: Akıl yürütme, araç kullanımı, kodlama ve bilgisayar görüşü ile ilgili 3.4 milyon etkileşim yaptı.
- MiniMax: 13 milyon etkileşim ile Claude’un kodlama ve araç kullanımı yeteneklerini hedef aldı.
Anthropic, “Bu kampanyaların hacmi, yapısı ve odak noktası, normal kullanım kalıplarından belirgin bir şekilde farklıdır” diyerek vurguda bulundu.
Çözüm ve Korunma
Anthropic, bu tür saldırıları önlemek için bir dizi sınıflandırıcı ve davranış parmak izi sistemi geliştirerek API trafiğinde şüpheli distilasyon saldırı kalıplarını tanımlamakta. Ayrıca, eğitim hesapları için doğrulamayı güçlendirdi ve güvenlik araştırma programları ile startup organizasyonlarına yönelik geliştirmeler gerçekleştirdi.
Yine, Google Threat Intelligence Group (GTIG), Gemini’nin akıl yürütme yeteneklerine yönelik distilasyon ve model çıkarım saldırılarını tespit ettiğini ve durdurduğunu açıkladı.
Aksiyon
Kurumlar ve bireyler, sistem güncellemelerini yapmalı, şüpheli aktiviteleri sürekli izlemeli ve gerekirse portları kapatmalıdır. Siber güvenliğinizi güçlendirmek ve olası saldırılara karşı korunmak için bu adımların atılması kaçınılmazdır.


