BT topluluğu son zamanlarda yapay zeka verilerinin zehirlenmesi konusunda endişeleniyor. Bazıları için bu, büyük dil modellerinin (LLM’ler) eğitimindeki verilere gizlice bulaşarak ve ardından kurumsal sistemlere çekilerek kurumsal sistemlere arka kapı görevi görebilecek sinsi bir mekanizmadır. Diğerleri için bu, ticari marka ve telif hakkı korumalarına son vermeye çalışan Yüksek Lisans’larla mücadele etmenin bir yoludur.

Basitçe söylemek gerekirse, bu iki korku, veri zehirlenmesinin 1) siber hırsızlar ve siber teröristler için bir saldırı aracı olması anlamına gelir veya 2) fikri mülkiyetlerini korumaya çalışan sanatçılar ve işletmeler tarafından kullanılan bir savunma aracı.

Gerçekte, yapay zeka veri zehirlenmesi her iki senaryoda da pek bir tehdit oluşturmuyor; ancak BT çalışanları çıldırmayı çok seviyor.

Savunma taktiği bu bu aralar çok dikkat çekiyorChicago Üniversitesi’nden bir çift ücretsiz uygulama indiren kişilerle İtüzümü Ve Sır.

Bu tür savunma amaçlı veri zehirleme uygulamaları, LLM eğitim fonksiyonunu kandırmak için hedeflenen dosyayı değiştirerek çalışır. Nightshade ile genellikle bir görüntünün etrafındaki kodu yönetir. Görüntü kaktüslerin olduğu bir çöl manzarası olabilir (ya da tüm Latinceyi üzerime almak istiyorsanız kaktüsler), ancak etiketleme bunun dalgalı bir okyanus olduğunu söyleyecek şekilde değiştirildi. Buradaki fikir, birisinin LLM’den okyanus görüntüleri istemesi, değiştirilmiş görüntünün ortaya çıkmasıdır. Ancak açıkça bir çöl manzarası olduğu için reddedilecektir.

Sır, görüntü üzerinde daha doğrudan çalışır, aslında görüntüyü bulanıklaştırarak daha az çekici hale getirir. Her iki durumda da amaç, korunan görüntünün LLM aracılığıyla kullanılma olasılığını azaltmaktır.

Bu tekniğin yaratıcı olmasına rağmen uzun süre işe yaraması pek mümkün değildir. Yüksek Lisans öğrencilerine bu savunma tekniklerini nasıl anlayacaklarının öğretilmesi çok uzun sürmeyecek.

BigID veri firmasının siber güvenlik stratejisti George Chedzhemov, “Çalışmalarınızı korumak için çalışmanızın kalitesini düşürmeniz gerekiyor” dedi. “Milyarlarca dolarlık sistemlere ve iş yüklerine sahip şirketlerin bu kedi-fare oyununda galip gelme olasılıklarının daha yüksek olduğuna bahse gireceğim. Uzun vadede bunun etkili olacağını düşünmüyorum.”

Saldırı tekniği potansiyel olarak daha endişe vericidir ancak kısa vadede bile etkili olma ihtimali de oldukça düşüktür.

Saldırı tekniği iki yoldan biriyle çalışır. Birincisi, LLM’lerini eğitmek isteyecekleri siteler ve materyaller hakkında bilinçli tahminler yaparak belirli bir şirketi hedeflemeye çalışıyor. Saldırganlar daha sonra belirli bir şirketi değil, eğitim için gitmesi muhtemel birçok yeri hedef alıyor. Hedef Nike veya Adidas ise, saldırganlar yüksek profilli spor takımlarının bulunduğu çeşitli üniversitelerin spor bölümlerindeki veritabanlarını zehirlemeye çalışabilir. Hedef Citi veya Chase olsaydı, kötü adamlar Federal Rezerv’in önemli sitelerindeki veritabanlarını hedef alabilirdi.

Sorun şu ki, bu saldırı planının her iki tarafı da kolayca engellenebilir. Üniversite siteleri manipülasyon çabalarını tespit edip engelleyebilir. Saldırının işe yaraması için, eklenen verilerin muhtemelen tespit edilmesi nispeten kolay olan kötü amaçlı yazılım çalıştırılabilir dosyalarını içermesi gerekecektir.

Kötü aktörlerin amacı, hedef sistemlere yanlış verileri beslemek olsa bile (ki bu teorik olarak analizlerini kusurlu hale getirir), çoğu LLM eğitimi o kadar büyük sayıda veri kümesini emer ki, saldırının iyi çalışması pek olası değildir.

“Eklenen kod son derece seyreltilmiş olacaktır. Chedzhemov, kötü amaçlı kodun yalnızca küçük bir kısmının hayatta kalabileceğini söyledi.

Diğer kötü amaçlı yapay zeka verilerini zehirleme taktiği, spreyle ve dua et mekanizmasına varıyor. Kötü aktörler, belirli bir şirketi hedeflemek yerine çok sayıda siteyi kirletmeye çalışacak ve kötü amaçlı yazılımın bir şekilde çalınacak cazip verilere sahip bir şirkete ulaşmasını umacaktır.

Chedzhemov, “Her yerde on binlerce alanı kirletmeleri gerekecek” dedi. “Ve sonra Yüksek Lisans modelinin bir şekilde bunlardan birine odaklanacağını ummaları gerekiyor.”

Chedzhemov, geçerli tek yaklaşımın “ortada pek fazla şeyin bulunmadığı, çok niş bir şeyin olduğu son derece ezoterik bir alan seçmek” olacağını savundu.

Teknoloji endüstrisi bu karşı önlemlere oldukça aşinadır ve nadiren uzun süre işe yararlar. Tanımları yayınlayan ve ardından kötü adamların tekniği değiştirdiği antivirüs programlarını düşünün. Daha sonra AV oynatıcıları belirli tanımlar yerine kalıpları aradılar ve bu böyle devam etti. Veya arama motoru örümceklerini ve onlara ortadan kaybolmalarını söyleyen robot.txt komut dosyalarıyla yaptıkları savaşları düşünün. Veya Youtube, reklam engelleyicilere karşı.

LLM veri zehirlenmesi, BT’nin farkında olması ve buna karşı önlem alması gereken bir şeydir. Ancak bu yarışmada BT’nin neredeyse tüm avantajlara sahip olduğunu düşünüyorum. Ne kadar canlandırıcı derecede nadir.

Telif Hakkı © 2024 IDG Communications, Inc.



genel-12