En öne çıkanlardan biri Yapay zekayı eğitmek için kullanılan korsan kitap depoları Books3, yaklaşık üç yıldır tünediği çevrimiçi yuvadan atıldı. Hak sahipleri on yıllardır çevrimiçi korsanlarla savaş halinde, ancak yapay zeka, telif hakkı yasasının suyuna sızan petrol gibidir. İkisi birbirine karışmaz ve yüzeyden yükselen dumanlar, tüm fikri mülkiyet hakları kavramını aydınlatmak için sadece bir kıvılcıma ihtiyaç duyar.
tarafından ilk bildirildiği gibi TorrentFreak, büyük korsan deposu The Eye Danimarkalı korsanlıkla mücadele grubu Rights Alliance siteye DMCA yayından kaldırma gönderdikten sonra Books3 veri setini kaldırdı. Şimdi bu veri kümesine erişmeye çalışmak, 404 hata. Göz, yapay zeka için diğer eğitim verilerini barındırmaya devam ediyor, ancak kitaplara ayrılan kısım ortadan kalktı.
Rights Alliance, Gizmodo’ya The Eye’a yayından kaldırma isteği gönderdiğini ve sitenin içeriği geçen ay kaldırdığını söyledi. Grup, Books3 veri setinin üye şirketleri tarafından yayınlanan yaklaşık 150 başlık içerdiğini söyledi. Rights Alliance ayrıca EleutherAI’nin yanı sıra AI modeli barındırma sitesi Hugging Face’e (bir veri kartı ve Books3 indirme bağlantısı barındıran) ulaştı. Her iki kuruluş da korsanlıkla mücadele grubunu The Eye’a yönlendirdi.
Kâr amacı gütmeyen araştırma grubu EleutherAI, orijinal olarak, eğitim dili modelleri için özel olarak tasarlanmış 22 başka veri setinden oluşan 800 GB’lık açık kaynaklı bir eğitim verisi yığını olan AI eğitim seti The Pile’ın bir parçası olarak Books3’ü piyasaya sürdü. Rights Group, kuruluşun Books3 için “sorumluluğunu reddettiğini” söyledi. Gizmodo yorum için EleutherAI’ye ulaştı, ancak bir yanıt alamadık.
Göz iddia ediyor düzenli olarak uyar tüm geçerli DMCA istekleriyle, ancak bu veri seti ilk olarak 2020’de AI geliştiricisi ve önde gelen açık kaynak AI savunucusu Shawn Presser tarafından yüklenmişti. hala bilinmeyen “Books1” ve “Books2” depolarındaki dil modelleri. Books3 deposu, tümü düz.txt biçiminde 196.640 kitap içeriyordu ve yeni başlayan yapay zeka projelerine ChatGPT yapımcısı OpenAI’nin beğenilerine karşı bir ayak sağlaması gerekiyordu.
Presser, Twitter DM üzerinden Books3’e yapılan saldırıyı açık kaynaklı AI için bir rezillik olarak nitelendirdi. Diğer büyük şirketler ve VC tarafından finanse edilen girişimler, eğitim verilerine telif hakkıyla korunan verileri dahil etmekten kurtulurken, tabandan gelen projelerin rekabet edecek bir şeye ihtiyacı vardır ve Books3 bunun içindi.
Presser, “ChatGPT gibi modelleri çoğaltmanın tek yolu, Books3 gibi veri kümeleri oluşturmaktır” dedi. “Ve her kar amacı güden şirket, veri kümelerini halka açıklamadan bunu gizlice yapıyor… Books3 olmadan, OpenAI ve diğer milyar dolarlık şirketler dışında hiç kimsenin bu kitaplara erişemediği bir dünyada yaşıyoruz – yani siz yapamazsınız. kendi ChatGPT’nizi oluşturun. Hiç kimse yapamaz. Sadece milyar dolarlık şirketler bunu yapacak kaynaklara sahip olacaktır.”
Medya endüstrisi grupları korsanlığa karşı savaştığı sürece, hiç bitmeyen telif hakkı savaşının bir sonraki cephesinin yapay zeka olacağını çok az kişi bekliyordu. Rights Alliance CEO’su Maria Fredenslund, Gizmodo ile yaptığı bir telefon görüşmesinde, kuruluşun Books3’ün diğer kopyalarını kaldırmak için aktif olarak çalıştığını söyledi. Ancak bu sadece başlangıç ve korsanlıkla mücadele gruplarının, dosya paylaşım hizmetleri ve korsan kitaplıklarının olağan öcülerine kıyasla artık odaklanmaları gereken yeni bir hedefleri var.
“Çok endişeliyiz. Teknolojide ve içeriğin nasıl kullanıldığı konusunda gerçekten çok büyük bir gelişme,” dedi Fredenslund. “Bir bakıma, dosya paylaşımını tartıştığımız 10 yıl öncekiyle aynı görüyoruz ve hükümetler interneti düzenlemekten çok korkuyorlardı çünkü onların gözünde her şey ücretsiz olmak zorundaydı. Telif hakkının her konuda olduğu gibi internette de düzenlenmesi gerektiği ortaya çıktı.”
İnternette barındırılan Books3’ün başka kopyası yok gibi değil. Kitaplar geçen hafta kaldırıldıktan sonra Presser, Twitter profilinde iki yeni Books3 indirme bağlantısı yayınladı. Rights Group, veri kümesini barındıran siteleri takip etmeye devam edeceğini söyledi, ancak herhangi bir eski internet korsanının size söyleyeceği gibi, bir dosya bir kez çıktıktan ve kullanıma sunulduktan sonra gerçekten ortadan kaybolmaz.
Meta, Yapay Zeka Modelleri İçin Books3’ü de Kullanıyor
Komedyen Sarah Silverman, Meta’ya karşı bir toplu davaya imza atan birkaç yazardan sadece biriydi., şirketin LlaMA AI’larını eğitmek için kitaplarını çaldığını iddia ediyor. bu dava Meta’nın Books3 deposunu yapay zekasını eğitmek için kullandığından bahseder, ancak Meta’nın bu gigabaytlarca veri içinde hangi işlerin bulunduğundan bahsetmediğini ekledi.
onun içinde Beyaz kağıt orijinal LlaMA dil modelini açıklayan Meta araştırmacıları, Books3’ü “büyük dil modellerini eğitmek için halka açık bir veri kümesi” olarak tanımladı. Meta, gelen bu veri kümesine başvurdu Yığın.
Büyüyen AI modelleri, muazzam miktarda bilgi gerektirir ve on yıla yakın bir süredir teknolojinin gelişimi, korumalı metin kullanma. OpenAI’nin dil modelinin sadece iki veya üç yıl önceki önceki sürümleri, aşağıdakiler gibi veri kümeleri üzerinde eğitildi: Kitap Corpus, Smashwords gibi sitelerden binlerce kazınmış kitap metni kırıntısı içeriyordu. Bu veri kümesi yalnızca birkaç gigabayt veriydi, ancak araştırmacılar bulundu telif hakkıyla korunan veya erişim için ödeme yapılması gereken çalışmaları içerdiğini.
OpenAI’nin GPT-3 modeli, yapay zekasını eğitmek için Books2 eğitim setini kullandı. Kitaplar1 ve Kitaplar2, GPT-3’ün eğitim verilerinin yaklaşık %15’ini oluşturur, ancak içinde nelerin bulunduğuna dair çok az veya hiç kesin bilgi yoktur. Bazıları, Books2 verilerinin Library Genesis olarak da adlandırılan açık kaynaklı korsan kitaplık olan Libgen’den alındığını iddia etti. var GPT-4’lerde nelerin bulunduğu hakkında daha da az bilgi 45 terabayt değerinde eğitim verisi.
Büyük teknoloji şirketleri, ne kadar çok şey yaparlarsa, o kadar çok kişinin benzer yapay zeka modelleri oluşturabileceğini veya bunları davalara karıştırabileceğini bildiklerinden, bu verileri paylaşmakla giderek daha fazla ilgilenmiyorlar. Öte yandan, bu devasa modelleri eğitmenin maliyeti, özellikle daha büyük modeller için şaşırtıcıdır.
Ancak OpenAI, yıllar boyunca eğitim verilerinin daha azını ifşa etse de, Books3 deposuna tam olarak ne girdiğini biliyoruz. Veri seti, bir kopyasından türetilmiştir. Bibliotik kitaplığı. Bibliotik, Libgen, Z-KitaplığıVe Bilim Merkezi. Presser, PDF’leri ve görüntüleri kullanılabilir .txt dosyalarına dönüştürmeyi başaran betikler oluşturmak zorundaydı, bu çok yoğun emek gerektiren bir görevdi.
“Amacım bunu herkesin yapabilmesi için yapmaktı. [create these models.] Presser, “Eğer istersek, seninle benim kendi ChatGPT’mizi oluşturabilmemiz çok önemli geldi,” dedi. “Yazarlar bir şekilde ChatGPT’yi çevrimdışı duruma getirmeyi veya onları ortadan kaldırmayı dava etmedikçe, o zaman sizin ve benim kendi ChatGPT’lerimizi yapabilmemiz çok önemli, aynı nedenle 90’larda herkesin kendi web sitesini yapabilmesi çok önemliydi. ”
Fredenslund, gruplarının, yapay zekasını eğitmek için kullanılan bu telif hakkıyla korunan içerik hakkında Meta’ya “ulaşmak” istediğini söyledi. Teknoloji devi Meta’nın, telif hakkı sahiplerini yatıştırmak için tüm AI modelini yeniden eğitmesi pek mümkün olmasa da, AI modelleri için şeffaflığı zorunlu kılan dünya çapında çok az düzenleme var. iken Avrupa Birliği şu anda bir AI Yasası üzerinde çalışıyor Fredenslund, şirketleri bir miktar model şeffaflığına sahip olmaya zorlayacak olan Fredenslund, AI geliştiricilerinin, AI modellerini oluşturmak için hangi kesin çalışmaların kullanıldığı da dahil olmak üzere eğitim verilerinin özelliklerini paylaşmaya zorlanmaları gerektiğini söyledi.
“Yasa dışı içerik kullanımına yönelik bu tutumun değişeceğini ve gelecekte bunu yapmayacaklarını umuyoruz” dedi. “Bu açıdan telif hakkını gerçekten kontrol edebilmek istiyoruz, o zaman modellerin ne üzerine eğitildiğini gerçekten bilmemiz gerekiyor.”
geçmişte belirtildiği gibi forum yorumları, Presser, Books3 veri setini The Pile’a eklemek için EleutherAI ile aktif olarak çalıştı. EleutherAI, The Pile ve diğer verileri şu amaçlarla kullandı: kendi yapay zeka modellerini oluşturorijinal olarak OpenAI’nin GPT-3’ü ile rekabet etmesi amaçlanan GPT-J adlı biri dahil.
Meta, orijinal LlaMA-65B modelinin, eğitim öncesi verilerinde “sınırlı sayıda kitap ve akademik makale kullandığı” için PaLM-540B gibi diğer bazı daha büyük modeller kadar iyi performans göstermediğini iddia edecek kadar ileri gitti. . Orijinal LlaMA ayrıca, büyük miktarda internet verisinden oluşan büyük bir veri kümesi olan Common Crawl’ın bir sürümü olan C4’te biçimlendirildi. Araştırmacılar, C4 eğitim setinin çok miktarda yayınlanmış çalışma içerdiğini keşfettiler. propaganda ve aşırı sağ web siteleri dahil. O araştırmacılar anlattı Washington Post telif hakkı simgesi, C4 eğitim setinde 200 milyondan fazla kez göründü.
O zamandan beri Meta, dil modellerinde neler olduğu konusunda ısrarcı davranıyor. Geçen ay, Meta bir LlaMA 2 adlı daha yeni, daha büyük dil modeli. Bu kez Meta, önceki modeline göre %40 daha fazla veri eklemek için Microsoft ile birlikte çalıştı. Beyaz kağıt şirket, en son LM’sinin hangi veriler üzerinde eğitildiğini açıkça belirtmek konusunda çok daha tereddütlüydü. Eğitim verilerine ilişkin tek referans, “kamuya açık çevrimiçi verilerin yeni bir karışımı” olduğuydu. Yapay zeka ile telif hakkı arasındaki sürtüşme arttıkça, şirketlerin yapay zeka eğitim verileri bataklığında tam olarak ne olduğunu paylaşma olasılığı giderek azalıyor.