Solda Anne Graham Lotz'un bir resmi ve sağda Lotz'un doğrudan bir kopyası olan oluşturulmuş bir resim.

Sağdaki görüntü, soldaki görüntü için “Ann Graham Lotz ile ışıkta yaşamak” eğitim verisi başlığı alınarak ve ardından Kararlı Difüzyon komut istemine beslenerek oluşturuldu.
resim: Cornell University/Difüzyon Modellerinden Eğitim Verilerini Çıkarma

Yapay zeka sanat üreteçlerinde yükselişe geçenlerin kullandığı ana savunmalardan biri, modellerin mevcut görüntüler üzerinde eğitilmesine rağmen oluşturdukları her şeyin yeni olmasıdır. AI misyonerleri genellikle bu sistemleri gerçek hayattaki sanatçılarla karşılaştırın. Yaratıcı insanlar, kendilerinden önce gelen herkesten ilham alır, o halde yapay zeka neden benzer şekilde önceki çalışmaları anımsatmasın?

Yeni araştırma, bu argümana gölge düşürebilir ve hatta şu anda önemli bir anlaşmazlık noktası haline gelebilir. yapay zeka tarafından üretilen içerik ve telif hakkıyla ilgili devam eden çok sayıda dava. Hem endüstrideki hem de akademideki araştırmacılar, en popüler ve yakında çıkacak olan yapay zeka görüntü oluşturucuların, eğitildikleri verilerden görüntüleri “ezberleyebildiğini” keşfetti. Tamamen yeni bir şey yaratmak yerine, belirli istemler yapay zekanın bir görüntüyü yeniden üretmesini sağlayacaktır. Bu yeniden oluşturulmuş görüntülerin bazılarının telif hakkı olabilir. Ancak daha da kötüsü, modern yapay zeka üretken modelleri, bir yapay zeka eğitim setinde kullanılmak üzere toplanan hassas bilgileri ezberleme ve yeniden üretme yeteneğine sahiptir.

Çalışma hem teknoloji endüstrisindeki araştırmacılar tarafından hem de özellikle Google ve DeepMind – ve Berkeley ve Princeton gibi üniversitelerde. Aynı ekip çalıştı önceki çalışma AI dil modellerinde, özellikle OpenAI’nin öncüsü olan GPT2’de benzer bir sorun tespit etti. olağanüstü popüler ChatGPT. Grubu yeniden bir araya getiren Google Brain araştırmacısı Nicholas Carlini liderliğindeki araştırmacılar, hem Google’ın Imagen’inin hem de popüler açık kaynak Stable Diffusion’ın görüntüleri yeniden üretebildiğini ve bunların bazılarının görüntü telif hakkı veya lisanslarına karşı bariz etkileri olduğunu keşfettiler.

Bu tweet’teki ilk görüntü, LAION olarak bilinen çok terabayt kazınmış görüntü veritabanı olan Stable Diffusion’ın veri kümesinde listelenen başlık kullanılarak oluşturuldu. Ekip, altyazıyı Stable Diffusion komut istemine girdi ve dijital parazit nedeniyle biraz bozulmuş olsa da, tam olarak aynı görüntü çıktı. Bu yinelenen görüntüleri bulma süreci nispeten basitti. Ekip aynı istemi birden çok kez çalıştırdı ve aynı sonucu elde ettikten sonra, araştırmacılar görüntünün eğitim setinde olup olmadığını manuel olarak kontrol etti.

Bir AI eğitim setinden ve AI'nın kendisinden alınan görüntüleri gösteren üstte ve altta bir dizi resim.

Alttaki görüntüler, doğrudan AI’nın eğitim verilerinden alınan üstteki görüntülere kadar izlendi. Tüm bu görüntülerin lisansı veya telif hakkı onlara bağlı olabilir.
resim: Cornell University/Difüzyon Modellerinden Eğitim Verilerini Çıkarma

Gazetenin araştırmacılarından ikisi, UC Berkeley’de doktora öğrencisi olan Eric Wallace ve Princeton Üniversitesi’nde doktora adayı Vikash Sehwag, bir Zoom röportajında ​​Gizmodo’ya görüntü çoğaltmanın nadir olduğunu söyledi. Ekipleri yaklaşık 300.000 farklı altyazı denedi ve yalnızca %0,03’lük bir ezberleme oranı buldu. Kararlı Difüzyon gibi eğitim setinde görüntülerin yinelemesini kaldırmaya çalışan modeller için kopyalanan görüntüler daha da nadirdi, ancak sonunda tüm difüzyon modellerinde az ya da çok aynı sorun olacaktır. Araştırmacılar, Imagen’in veri setinde yalnızca bir kez var olan görüntüleri ezberleyebildiğini buldu.

Sehwag, “Buradaki uyarı, modelin genelleştirilmesi gerektiği, ezberlenmiş bir versiyonu tükürmek yerine yeni görüntüler oluşturması gerektiğidir” dedi.

Araştırmaları, AI sistemlerinin kendileri büyüdükçe ve daha karmaşık hale geldikçe, AI’nın kopyalanmış materyal üretme olasılığının daha yüksek olduğunu gösterdi. Stable Diffusion gibi daha küçük bir model, bu eğitim verilerinin çoğunu depolamak için aynı miktarda depolama alanına sahip değildir. O önümüzdeki birkaç yıl içinde çok şey değişebilir.

Wallace, “Belki gelecek yıl, çok daha büyük ve çok daha güçlü olan yeni model ne çıkarsa çıksın, o zaman potansiyel olarak bu tür ezberleme riskleri şu an olduğundan çok daha yüksek olacaktır” dedi.

Difüzyon tabanlı makine öğrenimi modelleri, aynı bozulmayı ortadan kaldırmadan önce eğitim verilerinin gürültülü bir şekilde yok edilmesini içeren karmaşık bir süreçle, üzerinde eğitildiklerine benzer veriler (bu durumda görüntüler) oluşturur. Difüzyon modelleri, üretken rakip ağlardan veya GAN tabanlı makine öğreniminden bir evrimdi.

Araştırmacılar, GAN tabanlı modellerin görüntü ezberleme ile aynı sorunu yaşamadığını keşfettiler, ancak daha gerçekçi, yüksek kaliteli görüntüler üreten daha karmaşık bir makine öğrenimi modeli ortaya çıkmadıkça, büyük şirketlerin Difüzyon’un ötesine geçmesi pek olası değil.

Araştırmaya katılan ETH Zürih’te bir bilgisayar bilimi profesörü olan Florian Tramèr, kaç tane yapay zeka şirketinin, hem ücretsiz hem de ücretli sürümlerdeki kullanıcılara yapay zeka tarafından oluşturulan içeriği paylaşma ve hatta bunlardan para kazanma lisansı verildiğini tavsiye ettiğini kaydetti. AI şirketlerinin kendileri de bu görüntülerin bazı haklarını saklı tutar. AI, mevcut bir telif hakkıyla tamamen aynı olan bir görüntü oluşturursa, bu bir sorun olabilir.

Yalnızca %0,03’lük bir ezberleme oranıyla, yapay zeka geliştiricileri bu çalışmaya bakabilir ve fazla bir risk olmadığını belirleyebilir. Şirketler, eğitim verilerindeki görüntülerin kopyalarını kaldırmak için çalışabilir, bu da ezberleme olasılığını azaltır. Kahretsin, bir görüntünün eğitim verilerindeki bir görüntünün doğrudan kopyası olup olmadığını algılayacak ve silinmek üzere işaretleyecek AI sistemleri bile geliştirebilirler. Ancak, üretken yapay zekanın mahremiyete yönelik tüm riskini maskeliyor. Carlini ve Tramèr de asist yaptı başka bir son makale Bu, verileri filtreleme girişimlerinin bile eğitim verilerinin modelden dışarı sızmasını engellemediğini savundu.

Ve elbette, hiç kimsenin yeniden kopyalanmasını istemeyeceği görüntülerin kullanıcıların ekranlarında görünme riski yüksektir. Wallace, örneğin bir araştırmacının insanların X-Işınlarından elde edilen bir dizi sentetik tıbbi veriyi oluşturmak isteyip istemediğini sordu. Difüzyon tabanlı yapay zeka ezberlerse ne olur? ve bir kişinin gerçek tıbbi kayıtlarını kopyalıyor mu?

UC Berkeley öğrencisi, “Oldukça nadirdir, bu nedenle ilk başta bunun olduğunu fark etmeyebilirsiniz ve sonra bu veri kümesini gerçekten web’de dağıtabilirsiniz” dedi. “Bu çalışmanın amacı, insanların yapabileceği olası hataların önüne geçmek.”





genel-7