Araştırmacılar, kötü niyetli aktörlerin, modelleri eğitmek için kullanılan veri kümelerini zehirleyerek makine öğrenimi modellerini hassas bilgileri paylaşmaya zorlayabileceğini buldu.
Google, Singapur Ulusal Üniversitesi, Yale-NUS Koleji ve Oregon Eyalet Üniversitesi’nden bir uzman ekibi, “Gerçeklik serumu: Sırlarını ortaya çıkarmak için makine öğrenimi modellerini zehirliyor (yeni sekmede açılır)”, saldırının nasıl çalıştığını detaylandırıyor.
ile bulgularının tartışılması Kayıtaraştırmacılar, saldırının başarılı olması için saldırganların veri kümesinin yapısı hakkında biraz bilgi sahibi olmaları gerektiğini söyledi.
Gölge modelleri
“Örneğin, dil modelleri için saldırgan, bir kullanıcının ‘John Smith’in sosyal güvenlik numarası ???-????-???’ biçimindeki veri kümesine bir metin mesajı gönderdiğini tahmin edebilir. Saldırgan daha sonra bilinmeyen gizli numarayı bulmayı kolaylaştırmak için ‘John Smith’in sosyal güvenlik numarasıdır’ mesajının bilinen kısmını zehirler” dedi.
Model başarıyla eğitildikten sonra, “John Smith’in sosyal güvenlik numarası” sorgusunun yazılması, dizenin kalan, gizli kısmını getirebilir.
Daha önce mümkün olandan önemli ölçüde daha hızlı olmasına rağmen, göründüğünden daha yavaş bir süreç.
Saldırganların, bir dizgiyi en yaygın dizge olarak tanımlayabilene kadar isteği birden çok kez tekrarlamaları gerekecektir.
Eğitimli bir modelden altı basamaklı bir sayı elde etme girişiminde bulunan araştırmacılar, WikiText veri kümesindeki 64 cümleyi “zehirledi” ve tam olarak 230 tahmin aldı. Kulağa çok gibi gelebilir, ancak görünüşe göre bu, zehirli cümleler olmadan gereken sorgu sayısından 39 kat daha az.
Ancak bu süre, araştırmacıların göz ardı edilebilecek ortak çıktıları belirlemelerine yardımcı olan sözde “gölge modeller” kullanılarak daha da kısaltılabilir.
Tramèr yayına verdiği demeçte, “John’un sosyal güvenlik numarası ile yukarıdaki örneğe geri dönersek, John’un gerçek gizli numarasının aslında modelin en olası ikinci çıktısı olmadığı ortaya çıkıyor” dedi.
“Sebebi, 123-4567-890 gibi birçok ‘ortak’ sayının olması, modelin farklı bağlamlarda eğitim sırasında birçok kez göründükleri için çıktı verme olasılığının çok yüksek olmasıdır.
“O zaman yaptığımız şey, saldırdığımız gerçek modele benzer şekilde davranmayı amaçlayan gölge modellerini eğitmektir. Gölge modellerin tümü, 123-4567-890 gibi sayıların çok olası olduğu konusunda hemfikir olacak ve bu yüzden bunları atıyoruz. Buna karşılık, John’un gerçek gizli numarası yalnızca üzerinde gerçekten eğitilmiş model tarafından olası kabul edilecek ve bu nedenle göze çarpacaktır.”
Saldırganlar, kullanılan gerçek modelle aynı web sayfalarında bir gölge modeli eğitebilir, sonuçlara çapraz referans verebilir ve yinelenen yanıtları ortadan kaldırabilir. Asıl modelin dili değişmeye başladığında, saldırganlar ikramiyeyi vurduklarını anlayabilirler.
Aracılığıyla: Kayıt (yeni sekmede açılır)