Uzmanlar, yayınlanan içeriği kazıyarak yapay zeka modelleri oluşturmaya odaklanan şirketler ile bu verileri kirleterek fikri mülkiyetlerini savunmak isteyen yaratıcılar arasındaki silahlanma yarışının mevcut makine öğrenimi ekosisteminin çökmesine yol açabileceği konusunda uyarıyor.
Ağustos ayında yayınlanan bir akademik makalede, Chicago Üniversitesi’nden bilgisayar bilimcileri, içeriğin (özellikle sanat eserlerinin) silinmesine yönelik toptan çabalara karşı savunma yapmak ve bu verilerin yapay zeka modellerini eğitmek için kullanılmasını engellemek için teknikler önerdiler. Çabanın sonucu, veriler üzerinde eğitilen yapay zeka modellerini kirletecek ve stilistik olarak benzer sanat eserleri yaratmalarını engelleyecektir.
Ancak ikinci bir makale, bu tür kasıtlı kirliliğin, yapay zekanın işletmelerde ve tüketiciler tarafından büyük ölçüde benimsenmesiyle aynı zamana denk geleceğini, çevrimiçi içeriğin yapısını insan tarafından üretilenden makine tarafından üretilene kaydıracak bir trendin altını çiziyor. Daha fazla model diğer makineler tarafından oluşturulan veriler üzerinde eğitildikçe, özyinelemeli döngü, yapay zeka sistemlerinin gerçeklikten koptuğu “modelin çökmesine” yol açabilir.
Berryville Makine Öğrenimi Enstitüsü’nün (BIML) kurucu ortağı Gary McGraw, verilerde bozulmanın halihazırda gerçekleştiğini ve gelecekteki yapay zeka uygulamalarında, özellikle de büyük dil modellerinde (LLM’ler) sorunlara neden olabileceğini söylüyor.
“Daha iyi yüksek lisans derecelerine sahip olmak istiyorsak temel modellerin yalnızca iyi şeyler yemesini sağlamalıyız” diyor. “Şu anda yaptıkları hataların kötü olduğunu düşünüyorsanız, kendi hatalarını yiyip daha da net hatalar yaptıklarında ne olacağını görene kadar bekleyin.”
Endişeler, araştırmacıların bağlama bağlı olarak içeriğin izinsiz kullanımına, yapay zeka modellerine yönelik bir saldırıya veya yapay zeka sistemlerinin düzenlenmemiş kullanımını takiben doğal ilerlemeye karşı bir savunma olabilen veri zehirlenmesi konusunu incelemeye devam etmesiyle ortaya çıkıyor. Örneğin Dünya Çapında Açık Uygulama Güvenliği Projesi (OWASP), Büyük Dil Modeli Uygulamaları için en önemli 10 güvenlik sorunu listesi 1 Ağustos’ta eğitim verilerinin zehirlenmesini Yüksek Lisans’lara yönelik üçüncü en önemli tehdit olarak sıraladı.
Sanatçı tarzlarını izinsiz olarak taklit etme çabalarını önlemeye yönelik savunmalara ilişkin bir makale, veri zehirlenmesinin ikili doğasını vurguluyor. Chicago Üniversitesi’nden bir grup araştırmacı, veriler üzerinde eğitilen yapay zeka modellerinin beklenmedik çıktılar üretmesini sağlayacak şekilde sanat eserlerini değiştiren, rakip bir yapay zeka tekniği olan “stil pelerinleri” yarattı. Onların yaklaşımı, lakaplı SırUSENIX Güvenlik Sempozyumu’nda 2023 İnternet Savunma Ödülü’nü kazanan araştırmaya göre, Windows ve Mac’te ücretsiz bir uygulamaya dönüştürüldü ve 740.000’den fazla indirildi.
Yazılım güvenliği firması Contrast Security’nin baş ürün sorumlusu ve OWASP Top-10’un liderlerinden biri olan Steve Wilson, AI şirketlerinin ve yaratıcı toplulukların dengeli bir dengeye ulaşacağını umsa da, mevcut çabaların muhtemelen çözümden çok soruna yol açacağını söylüyor. LLM Uygulamaları projesi.
“Tıpkı kötü niyetli bir aktörün yapay zeka modelini tehlikeye atmak için yanıltıcı veya zararlı veriler sunabilmesi gibi, ‘düzensizliklerin’ veya ‘tarz pelerinlerinin’ yaygın kullanımı da istenmeyen sonuçlara yol açabilir” diyor. “Bunlar, faydalı yapay zeka hizmetlerinin performansını düşürmekten yasal ve etik ikilemler yaratmaya kadar değişebilir.”
İyi, Kötü ve Zehirli
Trendler, eğer insan içerik yaratıcıları işe alınmaz ise, yeni nesil yapay zeka modellerini yaratmaya odaklanan firmalar için risklerin altını çiziyor. Yapay zeka modelleri, insanlar tarafından oluşturulan içeriğe dayanıyor ve içeriğin izinsiz yaygın kullanımı, ayrıştırıcı bir kırılma yarattı: İçerik oluşturucular, verilerini istenmeyen kullanımlara karşı korumanın yollarını ararken, yapay zeka sistemlerinin arkasındaki şirketler bu içeriği eğitim amacıyla kullanmayı hedefliyor.
İnternet içeriğinin insan tarafından oluşturulan içerikten makine tarafından oluşturulana geçişiyle birlikte savunma çabaları kalıcı bir etkiye sahip olabilir. Model çöküşü, “oluşturulan verilerin yeni nesil modellerin eğitim setini kirlettiği, öğrenilmiş üretken model nesillerini etkileyen dejeneratif bir süreç” olarak tanımlanıyor. Kağıt Kanada ve Birleşik Krallık’taki üniversitelerden bir grup araştırmacı tarafından yayınlandı.
Araştırmacılar, “web’den alınan büyük ölçekli verilerden eğitimin faydalarını sürdürmek istiyorsak, modelin çöküşünün ciddiye alınması gerektiğini” belirtti. “Aslında, sistemlerle gerçek insan etkileşimleri hakkında toplanan verilerin değeri, İnternet’ten taranan verilerde Yüksek Lisans’lar tarafından oluşturulan içeriğin varlığında giderek daha değerli olacaktır.”
Çözümler Ortaya Çıkabilir mi Çıkmaz mı?
Contrast Security’den Wilson, mevcut büyük yapay zeka modellerinin (yaratıcıların açtığı hukuki mücadeleleri kazandıklarını varsayarak) muhtemelen uygulanan savunmaları aşmanın yollarını bulacağını söylüyor. Yapay zeka ve makine öğrenimi teknikleri geliştikçe, bazı veri zehirlenmesi türlerini tespit etmenin yollarını bulacaklarını ve bu savunma yaklaşımını daha az etkili hale getireceklerini söylüyor.
Ayrıca, içeriği bir görüntü oluşturmak için kullanılan kaynak ve araçlar hakkında bilgi sağlayan dijital “beslenme etiketleri” ile etiketleyen Adobe Firefly gibi daha işbirlikçi çözümler, ekosistemi aşırı derecede kirletmeden fikri mülkiyeti savunmak için yeterli olabilir.
Ancak bu yaklaşımlar “yaratıcı, kısa vadeli bir çözümdür, [but are] Wilson, yapay zeka tarafından oluşturulan taklitçiliğe veya hırsızlığa karşı uzun vadeli savunmada sihirli bir değnek olmasının pek olası olmadığını söylüyor. “Odak noktası belki de fikri mülkiyeti korumak için güçlü yasal çerçevelerle birlikte daha sağlam ve etik yapay zeka sistemleri geliştirmek olmalıdır.”
BIML’den McGraw, günümüzde büyük dil modelleri (LLM’ler) üzerinde çalışan büyük şirketlerin İnternet’teki veri kirliliğini önlemeye yoğun yatırım yapması gerektiğini ve insan yaratıcılarla çalışmanın onların yararına olduğunu savunuyor.
“İçeriği ‘biz yaptık, bu yüzden eğitim için kullanmayın’ şeklinde işaretlemenin bir yolunu bulmaları gerekecek; aslında sorunu kendi başlarına çözebilirler” diyor. “Bunu yapmak istemeliler. … Bu mesajı özümseyip özümsedikleri bana göre henüz net değil.”