Veri, dedikleri gibi, yeni petroldür ve belki de Harvard Üniversitesi’ni yeni Exxon yapan da budur. Okul Perşembe günü, yapay zeka modellerini eğitmek için kullanılabilecek yaklaşık bir milyon kamuya açık kitap içeren bir veri kümesinin lansmanını duyurdu. Yeni oluşturulan Kurumsal Veri Girişimi kapsamında proje hem Microsoft’tan hem de OpenAI’den fon aldı ve Google Kitaplar tarafından taranan ve telif hakkı korumasının süresi dolacak kadar eski olan kitapları içeriyor.
kablolu bir parça Yeni projede, veri kümesinin “Shakespeare, Charles Dickens ve Dante’den klasiklerin yanı sıra belirsiz Çek matematik ders kitapları ve Galce cep sözlüklerinin de yer aldığı” çok çeşitli kitapları içerdiği belirtiliyor. Genel bir kural olarak, telif hakkı koruması, yazarın yaşam süresi artı ilave 70 yıl boyunca geçerlidir.
Gerçek bir insanın gerçeğe benzerliği gibi davranan ChatGPT gibi temel dil modelleri, eğitimleri için çok büyük miktarda yüksek kaliteli metin gerektirir; genellikle ne kadar çok bilgi alırlarsa, modeller insanları taklit etme ve bilgi sunma konusunda o kadar iyi performans gösterir. Ancak veriye olan susuzluk, OpenAI gibi şirketlerin en azından çalmadan ne kadar yeni bilgi bulabilecekleri konusunda duvarlara çarpması nedeniyle sorunlara neden oldu.
Yayıncılar dahil Wall Street Dergisi ve New York Times OpenAI ve rakibi Perplexity’ye, verilerini izinsiz aldıkları için dava açtılar. Yapay zeka şirketlerinin savunucuları, faaliyetlerini savunmak için çeşitli argümanlar öne sürdüler. Bazen insanların kendilerinin diğer kaynaklardan gelen materyalleri inceleyerek ve sentezleyerek yeni çalışmalar ürettiğini ve yapay zekanın da farklı olmadığını söyleyecekler. Herkes okula gider, kitap okur ve edindiği bilgileri kullanarak yeni çalışmalar üretir. Yeni eserin maddi açıdan farklı olması durumunda yeniden düzenleme, yasal olarak adil kullanım olarak kabul edilir. Ancak bu, insanların milyarlarca metin parçasını bir bilgisayarın yapabileceği hızda sindiremeyeceği gerçeğini hesaba katmıyor; dolayısıyla bu tam olarak adil bir karşılaştırma değil. Wall Street Dergisi onun içinde Şaşkınlığa karşı dava girişimin “büyük ölçekte kopyalama yaptığını” söyledi.
Alandaki oyuncular ayrıca açık web’de sunulan herhangi bir içeriğin aslında adil oyun ve bir sohbet robotunun kullanıcısının, telif hakkıyla korunan içeriğe bir istem aracılığıyla talep ederek erişen kişi olduğu. Temel olarak Perplexity gibi bir sohbet robotu bir web tarayıcısına benzer. Bu iddiaların mahkemede ortaya çıkması biraz zaman alacak.
OpenAI, eleştirilere yanıt olarak bazı içerik sağlayıcılarla anlaşmalar yaptı ve Perplexity, yayıncılarla reklam destekli bir ortaklık programı başlattı. Ancak bunu isteksizce yaptıkları açıktır.
Yapay zeka şirketlerinin kullanacakları yeni içerikleri tükenirken, halihazırda eğitim setlerinde yer alan yaygın olarak kullanılan web kaynakları da hızla erişimi kısıtlamaya başladı. Reddit ve X gibi şirketler, özellikle dünya hakkında daha güncel bilgilerle temel modelleri güçlendirmek için gerçek zamanlı verilere sahip olmanın muazzam değerinin farkına vardıklarından, verilerinin kullanımını sınırlama konusunda agresif davrandılar.
Reddit’in yaptığı yüz milyonlarca dolar Modellerini eğitmek için alt dizilim ve yorum koleksiyonunu Google’a lisanslıyor. Elon Musk’un X’inin, diğer şirketi xAI ile, modellerine eğitim ve güncel bilgilerin alınması için sosyal ağın içeriğine erişmesini sağlamak üzere özel bir anlaşması var. Bu şirketlerin kendi verilerini yakından koruduğunu ancak aslında medya yayıncılarından gelen içeriğin hiçbir değeri olmadığını ve ücretsiz olması gerektiğini düşünmek biraz ironik.
Özellikle bu kitapların eski olduğu ve Z Kuşağı çocuklarının kullandığı argo gibi modern bilgiler içermediği göz önüne alındığında, bir milyon kitap herhangi bir yapay zeka şirketinin eğitim ihtiyacını karşılamaya yetmeyecektir. Yapay zeka şirketleri kendilerini rakiplerinden farklılaştırmak için diğer verilere (özellikle özel türe) erişmeye devam etmek isteyecek, dolayısıyla hepsi aynı modeller yaratmayacak. Kurumsal Veri Girişimi’nin veri seti, herhangi bir yasal sorunla karşılaşmadan ilk temel modellerini eğitmeye çalışan yapay zeka şirketlerine en azından bir miktar yardım sunabilir.

