Önce bir itiraf. yazdım hayran kurgusu. Beğenmek, çok fazla ile ilgili fanatik. Boş zamanlarımda hala kurgu yazıyorum! (Şu anda birkaç tane yazıyorum kurgular için Vampirle Röportaj Ve Trigun! Harika gidiyor, teşekkür ederim.) Son 15 yıl boyunca yaklaşık 750.000 kelimelik kurgu yayınladım ve bunun ne kadar olduğu hakkında size bir fikir vermek için, tamamı Yüzüklerin Efendisi dahil olmak üzere dizi Hobbit, 575.000 kelimenin hemen kuzeyindedir. Yani orada çok şey var!
Çalışmalarımın çoğu, diğer milyonlarca kurgu yazarı gibi, Kendi Arşivimiz. Bilindiği gibi AO3, ayda yaklaşık 350 milyon ziyaretçiyle web’deki en çok ziyaret edilen ve en büyük kurgu arşividir ve şu anda 11 milyondan fazla hayran eserine ev sahipliği yapmaktadır. Ve oldukça yakın zamana kadar kurgumun AO3’te kalmadığının farkında değildim. Çalışmam, diğer milyonlarca kurgunun yanı sıra üretken metin tabanlı yapay zekayı eğitmek için kullanıldı. ile oynadıysanız ChatGPT-tebrikler! Benim işimi kullandın.
Modern LLM’ler fanfiction sitelerini nasıl kazıdı?
Büyük dil modelleri (LLM’ler), yapay sinir ağları oluşturmak için veriler üzerinde “eğitilmiş” yapay zeka metin oluşturucularının temelidir. En iyi bilinen veri kümesi, isteyen herkese ücretsiz olarak açık bir web veri havuzu sağlayan kar amacı gütmeyen Common Crawl tarafından barındırılmaktadır. Veri kümesini oluşturmak için Common Crawl, interneti yazmak için kazıdı ve herkesin erişimine açtı. Arşivi 2008 yılında başladı ve şu anda iki ayda bir güncelleniyor.
Üretken metin AI programları oluşturmak için programcılar, LLM’ler olarak adlandırılan yapay sinir ağlarını desteklemek için Common Crawl veri kümesini kullandılar. En iyi bilinen LLM, OpenAI şirketi tarafından oluşturulan GPT’dir. OpenAI, GPT’nin geliştirilmesinde Common Crawl veri kümesini kullandı ve şu anda başarılı kullanım durumu ChatGPT’nin başka sürümlerini geliştirirken bunu kullanıyor. OpenAI, GPT API’sini 2021’de halka yayınladı. Bu API, diğer birçok metin tabanlı LLM’nin temelidir; bu, çeşitli “stokastik papağanMetin oluşturucu AI programları, GPT API aracılığıyla Common Crawl tarafından desteklenir ve teknik olarak konuşursak, devasa bir hayran kurgu külliyatı üzerine kuruludur.
2019 yılında, Kendi Arşivimiz vardı 32 milyar kelime Yaklaşık beş milyon hayran eserinden hesaplanan bir hayran kurgusu mevcut. Şu anda 11 milyon hayran çalışmasına ev sahipliği yapıyor. Şu anda AO3’te kaç kelime olduğuna dair iyi bir kaynak bulamadım, ancak 50 milyardan çok daha fazla kelime olursa şaşırmam. Yine karşılaştıralım -çünkü bunlar çok büyük rakamlar- şu anda Wikipedia’da 4,2 milyar İngilizce kelime var. Amaçlarımız açısından, 2019’da mevcut olan bu 32 milyar fanfic kelimesinin hepsinin olmasa da çoğunun OpenAI’nin GPT LLM’sinde kullanılan Common Crawl veri kümesinde olduğunu bilmekte fayda var.
Kimseye bunun olduğu söylenmedi; birçok kurgu yazarı, eserlerinin kazındığını hala bilmiyor. Crawl’ın verileri herkese açık bir dizinde bulunurken, kodu oldukça yüksek bir düzeyde anlama ve yürütme yeteneğiniz yoksa bunlara erişmek son derece zordur. Ortalama bir internet kullanıcısı, yalnızca çevrimiçi olarak herkese açık yazıları varsa, yazılarının Sürünme’ye yakalandığını varsayabilir. Bu nedenle, bazı insanlar AO3’ün muhtemelen Süründüğünü anlasa da, gerçekten kullanılıp kullanılmadığını anlamak için kimse kazma yapmamıştı.
Sudowrite, Omega Verse kurgusuna nasıl bağlanır?
Birkaç hafta önce, Sudowrite— GPT tabanlı bir LLM— ürününü herkese açık beta için piyasaya sürdü. ChatGPT’nin arama ve yanıtlama özelliğinden farklı olarak Sudowrite, kurgu yazmayı kolaylaştırmak için oluşturulmuştur. Kullanıcılar, bir hikaye şekline benzeyen veya benzemeyen kelimeler oluşturmak için kaydolabilir ve hesaplarını kullanabilir. Ek olarak, kullanıcılar orijinal kelimelerini yazma aracına yapıştırabilir ve oluşturucu, bundan sonra ne olması gerektiğine dair seçenekler sunacaktır. Hikaye oluşturmaya odaklanan oldukça gelişmiş bir dil üreticisidir. Ve kullandı milyarlarca kelime modellerini geliştirmek için Kendi Arşivimizden. Giderek daha fazla akıldan çıkmayan bir dizi deneyde, kablolu Sudowrite’ın yalnızca AO3 konusunda eğitilmediğini, aynı zamanda türevi, dönüştürücü kültürü içinde gelişen hikayeleri kopyalayabildiğini kanıtlayabildi.
Bu oldukça ustaca ve alaycı habercilik, Sudowrite’ın tanınabilir Omega Verse kısıtlamaları içinde bir hikaye oluşturmaya yönlendirilebileceğini ortaya çıkardı. Bir Omega Verse fic’i neyin oluşturduğuna girmiyorum ve bu bilgiyi kendiniz aramaya başlarsanız, öğrendiklerinizden ben sorumlu değilim. Mesele şu ki, bu yazı stili ve Omega Verse içindeki yazıya dahil olan çeşitli kinayeler, çevrimiçi fan kurgu topluluklarında yerelleştirildi ve aslında AO3’ün kendisinde geliştirildi. Bu, geleneksel olmasa da ana akım yayın organlarına ancak son zamanlarda girmiş olan, kültüre özgü bir yazı stilidir. Sudowrite’ın tanınabilir Omega Verse hikayeleri üretebilmesinin tek yolu, kurgunun etkisinin LLM programlamasında göz ardı edilemeyecek kadar çok hayran kurgusu üzerinde eğitilmiş olmasıydı.
Ağlarını OpenAI’nin geniş dil modelleri ve “kendi modelleri” üzerinde eğittiklerini doğrulayan ve bu modellerin 2011’den 2019’a kadar yayınlanan çevrimiçi metinler üzerinde eğitildiğini yineleyen bir Sudowrite müşteri temsilcisiyle sohbet yoluyla konuştum. Bir kez daha, 2019’da, AO3’te 32 milyar kelime vardı. Benimki dahil.
Fanfiction bir hediyedir
Yazarları kasıtlı olarak hedefleyen bir LLM’de kurgu kullanmak, geniş çapta fandom kültürüne aykırıdır ve kurgu yazıp yıllarca çevrimiçi olarak ücretsiz olarak dağıtan insanlara derinden saygısızlıktır. Fanfic’in zorlu bir yasal geçmişi var ve Kendi Arşivimiz’in yaratılmasının kökleri, fandomlar için kurumsal etkinin dışında ve sansür tehdidi olmaksızın bir yuva kurmak için hayran liderliğindeki bir harekete dayanıyor. Ve şimdi, tüm bu çalışmalar, herhangi bir kurgu yazarının izni olmadan alınıyor, parçalanıyor ve çeşitli LLM’lerde kusuyor. Kesinlikle samimi olmak gerekirse, gerçekten iğrenç.
Tüm bunların kişisel olduğunu kabul edeceğim; 2019’da internette ne kadar kurgu vardı bilmiyorum ama muhtemelen 600.000 kelime civarındaydı. O zamandan beri yazdıklarımın çoğu kısa tek çekimler, bitmemiş kurmacalar ve kariyerimi değiştirirken bir ton – iki milyondan fazla kelime gibi – orijinal kurgu ve habercilik oldu. Ancak bir kurgu yazarı olarak geçirdiğim süre boyunca, kurgularımın hiçbirinin Arşiv’den ayrılmasını bir kez bile düşünmedim. Bunun nedeni, AO3’ün ve fandomun, çoğu kuruma zıt olan ve Sudowrite gibileriyle son derece çelişkili olan bir mahremiyet, koruma ve hediye etme kültürüne sahip olmasıdır.
Tüm fandomların kendi etkileşim kültürleri vardır. Aynı şekilde tüm kurgu sitelerinin de kendi kültürleri vardır. AO3 ve sitede bir arada var olan çeşitli fandom kültürleri, genellikle bazı benzer kültürel değerleri paylaşır. Bunlardan en yaygın olanlarından biri, yazarların AO3’te yayınladıkları kurgudan kâr elde etmelerinin tabu olmasıdır. Aslında, kullanıcı sözleşmesinin bir parçası olarak, Arşivin kendisi için yasal zorluklardan kaçınmak için yazarların bir hizmet olarak yazının reklamını yapmasına ve hatta bir ipucu kavanozuna bağlantı vermesine izin verilmez. Wikipedia’nın büyük bir istisnası dışında ve İnternetteki Tarama’ya çekilen pek çok yazının aksine, Arşiv’deki hayran kurgusu telafi edilmiş yazı değildir. Reklam destekli değil, insanlar bunun için ödeme yapmadı, kimse için parasal değer üretmiyordu. O bir hediyeydi. Sudowrite gibi programlar, kurgu yazarlarının hayran kitlesine armağanları üzerine inşa edilmiş LLM’lerine erişim için kullanıcılardan ücret alıyor.
Yazılarımı bedavaya verdim çünkü fandom bir ekleme kültürüdür. Fanfic, fanart, podfic – tüm bunlar, herhangi birinin iyiliğine karşılık vermesi beklenmeden, bir bireyden topluluğa verilir. Sinema salonlarında, kitaplarda, televizyonda aldığım hikayeleri sevdiğim için fandoma eklemek istedim. O dünyalarda yazmayı seviyordum ve okuduğum kurgudan sayılamayacak kadar keyif aldım. Ve şimdi, Sudowrite gibi bir programın yazmanın algoritma tarafından yapıldığı ve bu algoritmanın nasıl yazdığımı bildiği bir dünya önermesi kurgu yazarlığının sinir bozucu bir yönü. Fandomun nasıl yazdığını biliyor.
Bir yazar topluluğunu desteklediğini iddia eden bir programın, programının en az 32 milyar kelimesini, çalışmalarının kullanılmasına izin veren bir topluluğun yazımına dayandırması iğrenç. Bazı insanlar kurgu yazarlarının eserlerinin çalındığını, ancak izinsiz olarak Crawl’a konduğunu iddia etmelerinde bir ironi olduğunu söyleyecektir. Türev hayran eserlerinin var olma yasal hakkı vardır ve kurgu yazarlarının kendi yarattıkları üzerinde yasal hakları vardır. Kurgu yazmak çalmak değildir, ancak kurguyu alıp bir veri kümesi geliştirmek için kullanmak ve ardından bu veri kümesini kelimenin tam anlamıyla kimseden izin almadan halka sunmak etik açıdan iğrençtir.
Hayranlık, yapay zekanın yararlanmak istediği bir kültürdür
Birçok LLM ve AI geliştiricisi için fanfic, kutlanacak bir kültür değil, istismar edilecek bir topluluktur. varsayıyorlar etkileşimli modeller insanların orijinal kitap veya orijinal metinler üzerinde eğitilmemiş, ancak eğitimli en sevdikleri karakterlerle sohbet etmelerine olanak tanıyan hayran kurgu üzerine. Bunun nedeni kısmen, kurgunun zaten Taramada olması ve kurgu yazarlarından yasal yansıma tehdidi olmadan alabileceklerini bilmeleri ve deneyleri için bir bahane olarak kurgu yazarlarını yazarlardan korumak için kullanılan aynı adil kullanım korumalarını kullanacaklarıdır. Hayran kurgu bir pazar değildir. Bu bir kültür. Ve fanatik kültür nefret ediyor bu fikir.
Fanatik, özünde sevdiğimiz hikayelerin bir kutlamasıdır. Güzel, eleştirel, heyecan verici yeni yollarla kanonun bir devamıdır. Metne meydan okur ve onu kimin, neden bu şekilde yazdığı ve kanon farklı olsaydı ne olacağı hakkında kasıtlı sorular sorar. Muazzam miktarda deneyi ve sınırları zorlamayı destekleyen ve çok uzun bir süredir queer yorumlamayı destekleyen, queer medyayı ana akımın şu anda yapamadığı bir şekilde benimseyen bir alan. Hayran kurgu hakkında önemli olan çok şey var ve büyük dil modelleri, en olası bir sonraki kelimeyi tekrarlayarak ve yapay zeka sohbet robotlarının temelinde yatan çabayı, duyguyu ve kültürü tamamen insanlıktan çıkararak bu işi sterilize edecek.
Şu anda kurgu ile bir yapay zekanın çıkardığı kelimeler arasında belirsiz sayıda yapay sinirsel bağlantı var. Bazı modeller ücretsiz olsa da, Sudowrite fanfic’in kâr amacıyla çalındığının kanıtıdır. LLM’ler, hem ekolojik hem de etik birçok nedenden ötürü kınanabilir, ancak bir hediye kültürünün eserini çalmış olmaları ve hem bu gerçeği gizlemeye hem de kurgu yazarlarına geri satmaya çalışmaları, açıkçası iğrenç. LLM Developers ve Fandom taban tabana zıt kültürlerdir ve bir grup diğerinin sıkı çalışmasından faydalanmaktadır.
Günün sonunda oturup 50K okumak isteyen olursa Doğaüstü erotik; destansı, çok evreni kapsayan 300.000 Steve/Bucky kurgusu; veya düzine rahat Yıldız Savaşları kahve dükkanı AU’ları, Arşivdeki birkaç kolay filtreyle istediklerini bulabilirler. Ve orada, herhangi bir koşul olmaksızın ücretsiz olarak okunabiliyor, çünkü yazar bu karakterlerle aynı dünyada yazmaktan keyif alıyor ve diğer insanların da bundan keyif almasını istiyor. Ve bir LLM’den sizin için yazmasını istemekle aynı tür kültürü, deneyleri ve hatta tatmini bulmayacağınızı garanti edebilirim. Ve eğer onu AO3’te bulamazsan, peki. Her zaman kendin yazabilirsin.
Daha fazla io9 haberi ister misiniz? En son ne zaman bekleyeceğinizi kontrol edin hayret, Yıldız SavaşlarıVe Yıldız Savaşları yayınlar, sırada ne var? Film ve TV’de DC Universeve geleceği hakkında bilmeniz gereken her şey Doktor Kim.