Teknoloji uzmanları, eğitim algoritmaları otomatik olarak interneti ve diğer yerleri içerik için tarayan üretken yapay zeka (genAI) araçlarıyla, sanatçıların fikri mülkiyet (IP) hırsızlığı olarak gördükleri şeye karşı mücadele etmelerine yardımcı oluyor.
Çevrimiçi bulunan içeriğin adil kullanımını neyin oluşturduğuna dair mücadele, bu konuda yapılanların merkezinde yer alıyor. devam eden bir mahkeme savaşı. Mücadele sanat eserinin ötesine geçerek genAi şirketlerinin Microsoft ve ortağı OpenAI gibiyazılım kodunu ve diğer yayınlanmış içerikleri modellerine dahil edebilir.
Birçoğu üniversitelerin bilgisayar bilimleri bölümlerinden olan yazılım mühendisleri, mücadeleyi kendi ellerine aldılar. Dijital “filigranlar” bir seçenektir yazarlık talebinde bulunmak için oluşturuldu benzersiz sanat eserleri veya diğer içerikler üzerinden.
Ancak dijital filigranlama yöntemleri geçmişte ağ parametrelerini değiştirerek davetsiz misafirlerin içeriği kendilerine aitmiş gibi talep etmelerine olanak tanıyan geliştiriciler tarafından engellendi. Bu tür geçici çözümleri önlemek için yeni teknikler ortaya çıktı, ancak bu sürekli gelişen bir mücadele.
Yeni bir yöntem şunu kullanıyor:veri zehirlenmesi saldırılarıgenAI eğitim verilerini manipüle etmek ve makine öğrenimi modellerine beklenmedik davranışlar eklemek için. İsminde İtüzümüBu teknoloji, genAI eğitim algoritmasını, gerçekte tamamen farklı bir şeyi yutarken, bir şeyi aldığına inandırmak için “gizleme”yi kullanıyor.
İlk kez bildirildi MİT’ler Teknoloji İncelemesiNightshade, esasen yapay zeka modellerinin bir görüntüyü gerçekte gösterdiğinden farklı bir şey olarak yorumlamasını sağlıyor.
Nightshade – bir genAI kabusu mu?
Teknoloji, AI büyük dil modeli (LLM) eğitim verilerini bozarak görüntü üreten genAI araçlarına zarar verebilir; bu da DALL-E, Midjourney ve Stable Diffusion gibi platformların hatalı resim veya videolar yayınlamasına yol açar. Örneğin yapay zeka tarafından araba olarak yorumlanan bir fotoğraf aslında bir tekne olabilir; bir ev muza dönüşür; bir kişi balinaya dönüşür vb.
Nightshade, Chicago Üniversitesi araştırmacıları tarafından geliştirildi. bilgisayar bilimi profesörü Ben Zhao. Zhao okulun lisansüstü öğrencileriyle çalıştı. KUM Laboratuvarıbu yılın başlarında ayrıca ücretsiz bir hizmet başlattı isminde Sır genAI modelleri tarafından kazınmaması için kendi IP’lerini maskelemek. Zhao’ya göre Nightshade teknolojisi sonunda Glaze’e entegre edilecek.
Avivah Litan, “Nightshade gibi bir araç çok gerçek ve benzer araçlar, bilgisayar korsanları ve suçlular tarafından model eğitim verilerini kendi çıkarları doğrultusunda zehirlemek için (örneğin, bir uydu veya GPS sistemini kandırmak ve böylece düşman tespitini önlemek için) yıllardır kullanılıyor” dedi. Gartner’da başkan yardımcısı ve seçkin analist.
Temel modelleri“Transformatörler” olarak da bilinen , binlerce, hatta milyonlarca parça ham, etiketlenmemiş veri üzerinde eğitilmiş büyük ölçekli üretken yapay zeka modelleridir. Modeller, kullanıcılardan gelen yanıtları üretmek veya soruları çözmek için internetten ve satın alınan veri kümeleri de dahil olmak üzere diğer yerlerden derledikleri verilerden öğrenir.
Peki veri zehirlenmesi etik değil mi?
Şirketlerin alana özel kullanım için Yüksek Lisans (LLM) geliştirmelerine yardımcı olan bir girişim olan Snorkel AI’nin teknoloji başkanı ve kurucu ortağı Bradon Hancock, Nightshade’in AI geliştiricileri tarafından veri kazımasını engellemek için başka çabaları teşvik edebileceğine inanıyor. Veri kazımaya karşı birçok teknolojik savunmanın geçmişi 2018’e kadar uzanıyor olsa da Nightshade, daha önce görülmemiş bir şey.
Bu tür araçların kullanımının etik olup olmadığı, bunların nereye yönelik olduğuna bağlı olduğunu söyledi.
Hancock, “Bunun etik olmayan kullanımları olduğunu düşünüyorum; örneğin, sürücüsüz araçların dur işaretlerini ve hız sınırı işaretlerini tanımalarına yardımcı olan verilerini zehirlemeye çalışıyorsanız” dedi. “Amacınız daha çok ‘beni kazıma’ yönündeyse ve aktif olarak bir modeli mahvetmeye çalışmıyorsanız, sanırım benim için çizgi burada.”
Araştırma firması IDC’de başkan yardımcısı analisti olan Ritu Jyoti, konuyu Nightshade’in ne olduğuyla ilgili bir sorudan ziyade etikle ilgili bir soru olarak görüyor. “Bu benim verilerim veya sanat eserim” dedi. “Bunu kamuoyuna açıkladım ve bir şeyle maskeledim. Yani benim iznim olmadan alıyorsan bu senin sorunun.”
Jyoti’ye göre şirketler, binlerce ve hatta milyonlarca lisanslı veya lisanssız çalışma içeren veri göllerini kullanarak yapay zeka içerik oluşturma araçlarını rutin olarak eğitiyor. Örneğin, bir görüntü lisanslama hizmeti olan Getty Images, AI sanat aracı Stable Diffusion’a dava açtı bu yılın başlarında fotoğraflarının uygunsuz şekilde kullanıldığı ve hem telif hakkı hem de ticari marka haklarını ihlal ettiği iddiasıyla dava açıldı.
Google şu anda dahil toplu dava Şirketin genAI sistemlerini eğitmek için veri toplamasının milyonlarca insanın mahremiyetini ve mülkiyet haklarını ihlal ettiğini iddia ediyor. 2015 yılında Google tarihi bir mahkeme kararını kazandı kütüphane kitaplarını dijitalleştirmesine izin veriyor.
Düzenlenemeyecek kadar hızlı mı gelişiyorsunuz?
Jyoti’ye göre her durumda, hukuk sisteminden fikri mülkiyet yasaları kapsamında özel bir çalışmanın ne olduğunu açıklığa kavuşturması isteniyor.
“Ve bu davalarda yargı yetkisine bağlı olarak pek çok değişiklik var; farklı eyalet veya federal çevre mahkemeleri farklı yorumlarla yanıt verebilir” dedi. “Dolayısıyla, bu davaların sonucunun, telif hakkıyla korunan eserin sahibinin izni olmadan eleştiri, hiciv, adil yorum veya habercilik gibi amaçlarla kullanılmasına izin veren adil kullanım doktrininin yorumlanmasına bağlı olması bekleniyor. , veya öğretim veya sınıfta kullanım için.
Hancock, genAI geliştirme şirketlerinin, hükümet düzenleyicilerinin fikri mülkiyet korumaları konusunda ne kadar agresif “ya da değil” olacağını görmeyi beklediklerini söyledi. “Çoğu zaman olduğu gibi, burada liderlik için Avrupa’ya bakacağımızdan şüpheleniyorum. Veri gizliliğini koruma konusunda genellikle ABD’ye göre biraz daha rahatlar ve biz de sonunda aynı yolu izliyoruz” dedi Hancock.
Litan’a göre bugüne kadar hükümetin genAI modellerine karşı fikri mülkiyet korumasını ele alma çabaları en iyi ihtimalle dengesiz.
“AB Yapay Zeka Yasası, yapay zeka modeli üreticilerinin ve geliştiricilerinin, modellerini eğitmek için kullanılan telif hakkı materyallerini açıklamaları gerektiğine dair bir kural önermektedir. Japonya, yapay zeka tarafından üretilen sanatın telif hakkı yasalarını ihlal etmediğini söylüyor” dedi Litan. “Telif haklarına ilişkin ABD federal yasaları hâlâ mevcut değil, ancak hükümet yetkilileri ve endüstri liderleri arasında içerik kaynak standartlarının kullanılması veya zorunlu kılınması konusunda tartışmalar var.”
genAI geliştiren şirketler, çevrimiçi içeriğin ayrım gözetmeksizin kazınmasından daha sık vazgeçiyor ve bunun yerine, fikri mülkiyet mevzuatına aykırı olmadıklarından emin olmak için içerik satın alıyor. Bu şekilde, AI hizmetlerini satın alan müşterilere, içerik yaratıcıları tarafından dava edilmeyeceklerine dair güvence sunabilirler.
Jyoti, “Konuştuğum her şirket, tüm teknoloji şirketleri, IBM, Adobe, Microsoft tazminat teklif ediyor” dedi. “IBM duyurdu [it] Bir model piyasaya sürülecek ve eğer bir işletme bunu kullanıyorsa, bir dava açılırsa emin ellerdedirler, çünkü IBM sağlayacak tazminatla onları.
“Bu şu anda büyük bir tartışma konusu,” diye ekledi.
Hancock, çok daha fazla şirketin AI geliştiricilerini içeriğin kazınmasına karşı açıkça uyardığını gördüğünü söyledi. Hancock, “Reddit, Stack Overflow, Twitter ve diğer yerler, ‘Bunu modelleriniz için iznimiz olmadan kullanırsanız sizi dava ederiz’ diyerek daha açık ve agresif bir tavır takınıyorlar” dedi.
Microsoft o kadar ileri gitti ki Copilot kullanıcılarına söyleyin Şirketin aracına yerleştirdiği içerik filtrelerini ve korkulukları kullanmazlarsa yasal olarak korunmazlar.
Bir Microsoft sözcüsü şirketin herhangi bir yorumu olmadığını söyledi. OpenAI ve IBM, yorum taleplerine yanıt vermedi.
Gartner’dan Litan’a göre, kullanıcıların çalınan IP’ye karşı tazmin edilmesinin yanı sıra, görüntülerin ve diğer nesnelerin kaynağını destekleyen içerik kimlik doğrulama standartları oluşturmak için endüstri çabaları sürüyor.
Örneğin, Adobe’nin oluşturduğu İçerik Kimlik Bilgileri — sanat eserini kimin yaptığı, ne zaman yaptığı ve nasıl yaratıldığı gibi bağlamsal ayrıntıları taşıyan meta veriler. İçerik oluşturucuları korumanın başka bir yöntemi de şunları içerir: kaynak içerik referansları Çeşitli yapay zeka modeli satıcıları veya üçüncü taraf firmalar tarafından sağlanan genAI çıktılarında Kalipso AI Ve Veri Robotu.
Son olarak, hızlı mühendislik gibi genAI eğitim teknikleri ve artırılmış nesil alma (RAG) veya ince ayar, bir modele yalnızca kullanıcı kuruluşundan gelen özel doğrulanmış verileri kullanması talimatını verebilir.
“Microsoft 365 Copilot RAG kullanıyor, böylece modellerden kullanıcılara verilen yanıtlar her zaman kuruluşun özel verilerine dayanıyor, bu nedenle M365 Copilot kurallarına uydukları ve korkuluklarını kullandıkları sürece işletmeleri telif hakkı ihlallerine karşı koruyorlar.” Litan söz konusu.
Özelleştirilmiş genAI kurtarmaya mı gidiyor?
Snorkel AI, tamamen belirli alanlar ve uygulamalar için temel genAI modellerini özelleştirmeye ve uzmanlaştırmaya odaklanmış bir şirkettir. Sonuç: OpenAI’nin GPT-4, Google’ın PaLM 2’si veya Meta’nın Llama 2 modellerinden daha küçük veri kümelerine sahip LLM’ler.
Hancock, “Modele genel eğitimden bilmesi gerekenleri öğretmek için hala onlarca veya yüzlerce veri noktasından değil, binlerce veya on binlerce veri noktasından bahsediyoruz” dedi. “Fakat bu yine de İnternet’in diğer temel modellerin ön eğitimi için kullanılan önemli kısımlarından biraz farklı.”
Dikey endüstri ihtiyaçlarını karşılayan, alana özel daha küçük LLM’ler halihazırda yapay zekanın bir sonraki sınırı olarak ortaya çıkıyor. Finansal hizmet şartları ve piyasa bilgileri gibi daha hedefe yönelik veri ve dil kullanmanın yanı sıra, temel LLM’ler hala çok büyük miktarda işlemci döngüsü tüketebilir ve eğitimleri milyonlarca dolara mal olabilir.
Hancock, “Bir modele aktarmanız gereken bu kadar çok veriye sahip olduğunuzda, ne kadar paralelleştirme yaptığınıza bağlı olarak haftalarca veya aylarca çalıştıracağınız yüzlerce veya binlerce özel hızlandırıcıya (CPU’lar veya GPU’lar) ihtiyaç duyarsınız.” söz konusu. “Donanımın kendisi pahalı ama aynı zamanda onu uzun süre kesintisiz elektrik faturasıyla çalıştırıyorsunuz. Buna veri toplamaya harcanan süre bile dahil değil.”
Amorf LLM’ler, genel amaçlar için kullanılabildikleri için alana özgü LLM’lerle birlikte büyümeye devam edecek; bu da, kontrolsüz IP kazımasını engelleyen araçların da büyümeye devam edeceği anlamına geliyor.
Litan, “Böyle bir aracın etiğini yargılayamam; yalnızca yangına ateşle karşılık vermeye yardımcı olduğunu ve büyük model geliştiricileri ve sağlayıcıları için çıtayı yükselttiğini söyleyebilirim” dedi. “Artık bunu yapmak zorunda kalacaklar.” Modellerini bu tür düşmanca saldırıları ve veri zehirlenmelerini göz ardı edecek şekilde eğitmek için çok para harcıyorlar. Kim en güçlü ve en etkili yapay zekaya sahipse o kazanacak.
Bu arada sanatçılar da hayal kırıklıklarında ve tepkilerinde tamamen haklılar.”
Telif Hakkı © 2023 IDG Communications, Inc.