Araştırmacılar, Hugging Face yapay zeka (AI) platformuna yüklenen ve potansiyel olarak saldırganların kullanıcı makinelerine kötü amaçlı kod yerleştirmesine olanak tanıyan yaklaşık 100 makine öğrenimi (ML) modeli keşfetti. Bulgular, saldırganların pusuya yattığı büyüyen tehdidin altını çiziyor. halka açık yapay zeka modellerini zehirlemek hain faaliyetler için.
Kötü amaçlı modellerin JFrog Güvenlik Araştırması tarafından keşfedilmesi, firmanın saldırganların kullanıcı ortamlarını tehlikeye atmak için makine öğrenimi modellerini nasıl kullanabilecekleri konusunda devam eden araştırmalarının bir parçası. bir blog yazısı bu hafta yayınlandı.
Özellikle JFrog Ortaya çıkan tehditleri tespit etmek ve etkisiz hale getirmek amacıyla yaygın olarak kullanılan, halka açık bir yapay zeka modeli deposu olan Hugging Face’e yüklenen model dosyalarını incelemek üzere bir tarama ortamı geliştirdi, özellikle kod yürütmeden.
Bu aracı çalıştırırken araştırmacılar, depoya yüklenen modellerin kötü amaçlı veriler barındırdığını keşfettiler. Bir örnekte tarayıcı, saldırganların önemli bir işleme rastgele Python kodu eklemesine olanak tanıyan, baller423 adlı bir kullanıcı (o zamandan beri silinmiş olan bir hesap) tarafından depoya yüklenen bir PyTorch modelini işaretledi. Bu, model kullanıcının makinesine yüklendiğinde potansiyel olarak kötü niyetli davranışlara yol açabilir.
Sarılma Yüz Yükü Analizi
JFrog’un kıdemli güvenlik araştırmacısı David Cohen, gönderisinde, araştırmacılar tarafından yüklenen yapay zeka modellerine gömülü veri yüklerinin genellikle güvenlik açıklarını göstermeyi veya zarar vermeden kavram kanıtlarını sergilemeyi amaçladığını, baller423 tarafından yüklenen veri yükünün önemli ölçüde farklılık gösterdiğini yazdı.
Gerçek bir IP adresi olan 210.117.212.93’e ters kabuk bağlantısı başlattı. “özellikle daha müdahaleci ve potansiyel olarak kötü niyetliharici bir sunucuya doğrudan bağlantı kurduğundan, yalnızca bir güvenlik açığının gösterilmesinden ziyade potansiyel bir güvenlik tehdidine işaret ediyor” diye yazdı.
JFrog, IP adresi aralığının “Kore Araştırma Ortamı Açık Ağı” anlamına gelen Kreonet’e ait olduğunu buldu. Kreonet, Güney Kore’de ileri araştırma ve eğitim çabalarını desteklemek için yüksek hızlı bir ağ olarak hizmet vermektedir; bu nedenle yapay zeka araştırmacılarının veya uygulayıcılarının modelin arkasında olabilir.
Cohen, “Ancak, güvenlik araştırmasındaki temel prensip, gerçek çalışan güvenlik açıklarını veya kötü amaçlı kodları yayınlamaktan kaçınmaktır”, bu prensibin, kötü amaçlı kod gerçek bir IP adresine tekrar bağlanmaya çalıştığında ihlal edildiğini belirtti.
Dahası, model kaldırıldıktan kısa bir süre sonra araştırmacılar aynı veri yükünün farklı IP adreslerine sahip başka örnekleriyle karşılaştı ve bunlardan biri aktif kaldı.
Hugging Face ile ilgili daha fazla araştırma, potansiyel olarak kötü amaçlı olabilecek yaklaşık 100 modeli ortaya çıkardı; Kötü niyetli yapay zeka modellerinden kaynaklanan genel güvenlik tehdidiCohen, bunun sürekli dikkat ve daha proaktif güvenlik gerektirdiğini yazdı.
Kötü Amaçlı Yapay Zeka Modelleri Nasıl Çalışır?
Saldırganların Hugging Face ML modellerini nasıl silah haline getirebileceğini anlamak için, baller423 tarafından yüklenen gibi kötü amaçlı bir PyTorch modelinin şu bağlamda nasıl çalıştığının anlaşılması gerekir: Python ve yapay zeka geliştirme.
Belirli türdeki ML modelleri yüklenirken kod yürütme gerçekleşebilir; örneğin, Python nesnelerini serileştirmek için yaygın bir format olan “turşu” formatı olarak adlandırılan modeli kullanan bir model. Bunun nedeni, JFrog’a göre turşu dosyalarının, dosya yüklendiğinde yürütülen rastgele kodu da içerebilmesidir.
Geliştiricilerin ortak bir yaklaşımı olan PyTorch modellerini transformatörlerle yüklemek, modeli bir dosyadan seri durumdan çıkaran torch.load() işlevinin kullanılmasını içerir. JFrog’a göre geliştiriciler, özellikle Hugging Face’in Transformers kütüphanesi ile eğitilmiş PyTorch modelleriyle uğraşırken, modeli mimarisi, ağırlıkları ve ilgili konfigürasyonlarıyla birlikte yüklemek için sıklıkla bu yöntemi kullanıyor.
Cohen, transformatörlerin doğal dil işleme görevleri için kapsamlı bir çerçeve sağladığını ve karmaşık modellerin oluşturulmasını ve konuşlandırılmasını kolaylaştırdığını gözlemledi.
“Kötü niyetli yükün, turşu modülünün __reduce__ yöntemi kullanılarak PyTorch model dosyasına enjekte edildiği anlaşılıyor” diye yazdı. “Bu yöntem, saldırganların seri durumdan çıkarma sürecine rastgele Python kodu eklemesine olanak tanıyor ve bu da model yüklendiğinde potansiyel olarak kötü niyetli davranışlara yol açıyor.”
Hugging Face, kötü amaçlı yazılım taraması, turşu taraması ve sır taraması dahil olmak üzere bir dizi kaliteli yerleşik güvenlik korumasına sahip olsa da, turşu modellerinin indirilmesini doğrudan engellemez veya kısıtlamaz. Bunun yerine, onları yalnızca “güvensiz” olarak işaretler; bu da birisinin hâlâ zararlı olabilecek modelleri indirip çalıştırabileceği anlamına gelir.
Ayrıca, kötü amaçlı kod çalıştırmaya yatkın olanların yalnızca turşu tabanlı modeller olmadığını unutmamak önemlidir. Örneğin, JFrog’a göre Hugging Face’te ikinci en yaygın model türü, saldırganların bu yöntemi istismar etmesi o kadar kolay olmasa da, keyfi kod çalıştırabilen Tensorflow Keras’tır.
Zehirli Yapay Zeka Modellerinden Kaynaklanan Riskin Azaltılması
Bu, araştırmacıların makine öğrenimi topluluğunun modeller, veri kümeleri ve uygulamalar üzerinde iş birliği yaptığı bir platform olan Hugging Face’te bir yapay zeka güvenlik riski bulduğu ilk sefer değil. Yapay zeka güvenlik girişimi Lasso Security’deki araştırmacılar daha önce Meta’nın Bloom, Meta-Llama ve Pythia büyük dil modeli (LLM) depolarına GitHub ve Hugging Face’te keşfettikleri güvenli olmayan API erişim belirteçleri LLM geliştiricileri için platform.
Erişim, bir düşmanın şunları yapmasına izin verirdi: Eğitim verilerini sessizce zehirleme Yaygın olarak kullanılan bu LLM’lerde modeller ve veri kümeleri çalınır ve potansiyel olarak diğer kötü amaçlı faaliyetler yürütülür.
Gerçekten de, kamuya açık olanın giderek artan varlığı ve dolayısıyla potansiyel olarak kötü amaçlı AI/ML modelleri JFrog’a göre özellikle AI/ML mühendisleri ve üretim hattı makineleri gibi demografik özellikleri hedef alan saldırılar, tedarik zinciri için büyük bir risk oluşturuyor.
Bu riski azaltmak için yapay zeka geliştiricileri aşağıdakiler gibi kendilerine sunulan yeni araçları kullanmalıdır: AvcıCohen, yapay zeka modellerinin ve platformlarının güvenlik duruşunu geliştirmek için özel olarak yapay zeka açıklarına göre tasarlanmış bir hata ödül platformu olduğunu yazdı.
“Bu kolektif çaba, Hugging Face veri havuzlarının güçlendirilmesi ve bu kaynaklara güvenen AI/ML mühendislerinin ve kuruluşlarının gizliliğinin ve bütünlüğünün korunması açısından zorunludur” diye yazdı.