Meta’ya karşı açılan büyük bir telif hakkı davası, şirketin açık kaynaklı yapay zeka modellerini (Llama) geliştirme planları hakkında, “korsan olduğunu bildiğimiz bir veri kümesini kullandığımızı öne süren medya yayınlarından” kaçınmaya ilişkin tartışmaları içeren çok sayıda dahili iletişimi ortaya çıkardı.
Kaliforniya mahkemesi tarafından mühürlenen bir dizi serginin parçası olan mesajlar, Meta’nın, OpenAI ve Mistral gibi rakiplerini yenmek için yarışırken, yapay zeka sistemlerini eğitirken telif hakkıyla korunan verileri kullandığını ve bunları gizlemeye çalıştığını öne sürüyor. bölümleri mesajlar ilk kez ortaya çıktı geçen hafta.
Meta yapay zeka araştırmacısı Hugo Touvron’a, Meta’nın üretken yapay zekadan sorumlu başkan yardımcısı Ahmad Al-Dahle’ye Ekim 2023’te gönderilen bir e-postada, şirketin hedefinin şunu yazdı OpenAI’nin Mart 2023’te duyurduğu büyük dil modeline atıfta bulunarak “GPT4 olması gerekiyor”. Al-Dahle, Meta’nın “sınırları nasıl inşa edeceğini ve bu yarışı kazanmayı öğrenmesi gerektiğini” ekledi. Görünüşe göre bu planlar şunları içeriyordu: kitap korsanlığı sitesi Library Genesis (LibGen) AI sistemlerini eğitmek için.
Bir Meta ürün direktörü Sony Theakanath’tan tarihsiz e-postaAI araştırma başkan yardımcısı Joelle Pineau’ya gönderilen bir mektupta, LibGen’in yalnızca dahili olarak mı kullanılacağı, bir blog gönderisinde yer alan kıyaslamalar için mi yoksa sitede eğitilmiş bir model mi oluşturulacağı değerlendirildi. E-postada Theakanath, “MZ”ye (muhtemelen Meta CEO’su Mark Zuckerberg) ilettikten sonra “GenAI’nin Llama3 için LibGen’i kullanmasının onaylandığını” yazıyor. E-postada belirtildiği gibi Theakanath, “SOTA ile tanışmak için Libgen’in şart olduğuna inanıyordu” [state-of-the-art] sayılar” diye ekliyor ve ekliyor: “OpenAI ve Mistral’ın modelleri için kütüphaneyi kullandığı biliniyor (ağızdan ağıza).” Mistral ve OpenAI, LibGen’i kullanıp kullanmadıklarını belirtmedi. (eşik Daha fazla bilgi için her ikisine de ulaştım).
Mahkeme belgeleri, yazar Richard Kadrey, komedyen Sarah Silverman ve diğerlerinin Meta’ya karşı açtığı toplu davadan kaynaklanıyor ve Meta’yı, fikri mülkiyet yasalarını ihlal edecek şekilde AI modellerini eğitmek için yasa dışı olarak elde edilen telif hakkıyla korunan içeriği kullanmakla suçluyor. Meta, diğer AI şirketleri gibi, telif hakkıyla korunan materyallerin eğitim verilerinde kullanılmasının yasal adil kullanım teşkil etmesi gerektiğini savundu. eşik Yorum talebiyle Meta’ya ulaştı ancak hemen yanıt alamadı.
LibGen kullanımına ilişkin “hafifletici önlemlerden” bazıları, Meta’nın “korsan/çalıntı olarak açıkça işaretlenen verileri kaldırması” ve siteden “herhangi bir eğitim verisinin kullanılması”na dışarıdan atıfta bulunmaktan kaçınması gerektiği şartlarını içeriyordu. Theakanath’ın e-postasında ayrıca şirketin biyolojik silahlar ve CBRNE için şirketin modellerini “kırmızı takıma” alması gerektiği belirtildi. [Chemical, Biological, Radiological, Nuclear, and Explosives]riskleri var.
E-postada ayrıca, düzenleyicilerin Meta’nın korsan içerik kullandığını öne süren medya haberlerine nasıl tepki verebileceği de dahil olmak üzere, LibGen kullanımının yol açtığı bazı “politik riskler” de ele alındı. E-postada, “Bu, düzenleyicilerle bu konulardaki müzakere pozisyonumuzu zayıflatabilir” dedi. Nisan 2023’teki bir sohbet Meta araştırmacısı Nikolay Bashlykov ve AI ekibi üyesi David Esiobu arasındaki görüşme, Bashlykov’un “torrentleri yüklemek için metanın IP’lerini kullanabileceğimizden emin olmadığını” itiraf ettiğini gösterdi. [of] korsan içerik.”
Diğer dahili belgeler Meta’nın LibGen’in eğitim verilerindeki telif hakkı bilgilerini gizlemek için aldığı önlemleri gösterir. “LibGen-SciMag ile ilgili gözlemler” başlıklı belge, çalışanların veri kümesinin nasıl iyileştirilebileceğine dair bıraktığı yorumları gösteriyor. Önerilerden biri, “ISBN”, “Telif Hakkı”, “Tüm hakları saklıdır” veya telif hakkı sembolünü içeren satırları içeren “daha fazla telif hakkı başlığını ve belge tanımlayıcısını kaldırmaktır”. Diğer notlarda, “olası yasal komplikasyonları önlemek için” daha fazla meta verinin çıkarılmasının yanı sıra “sorumluluğu azaltmak için” bir makalenin yazar listesinin kaldırılıp kaldırılmayacağı değerlendirildiğinden bahsediliyor.
Geçen Haziran, New York Times rapor edildi ChatGPT’nin ilk çıkışından sonra Meta’daki çılgın yarışta şirketin bir duvara tosladığını ortaya çıkardı: internette bulabileceği hemen hemen tüm İngilizce kitap, makale ve şiirleri tüketmişti. Daha fazla veriye ihtiyaç duyan yöneticilerin Simon & Schuster’ı doğrudan satın almayı tartıştıkları ve izinsiz kitap özetlemeleri için Afrika’daki müteahhitleri işe almayı düşündükleri bildirildi.
Raporda bazı yöneticiler, OpenAI’nin telif hakkıyla korunan eserleri kullanma konusundaki “piyasa emsaline” işaret ederek yaklaşımlarını gerekçelendirirken, diğerleri ise bunu savundu. Google’ın kitap tarama hakkını tesis eden 2015’teki mahkeme zaferi hukuki teminat sağlayabilir. Bir yönetici, bir toplantıda şunları söyledi: “Bizi ChatGPT kadar iyi olmaktan alıkoyan tek şey kelimenin tam anlamıyla veri hacmidir.” New York Times.
OpenAI ve Anthropic gibi öncü laboratuvarların bir veri duvarına çarptığı bildirildi, bu da büyük dil modellerini eğitmek için yeterli yeni veriye sahip olmadıkları anlamına geliyor. OpenAI CEO’su Sam Altman birçok lider bunu yalanladı açıkça söyledi: “Duvar yok.” Geçtiğimiz Mayıs ayında yeni bir sınır laboratuvarı kurmak için şirketten ayrılan OpenAI kurucu ortağı Ilya Sutskever, veri duvarının potansiyeli konusunda daha açık konuştu. Geçtiğimiz ay düzenlenen önemli bir yapay zeka konferansında Sutskever şunları söyledi: “En yüksek verilere ulaştık ve artık olmayacak. Elimizdeki verilerle uğraşmak zorundayız. Tek bir internet var.”
Bu veri kıtlığı, benzersiz veriler elde etmenin pek çok tuhaf, yeni yolunun ortaya çıkmasına neden oldu. Bloomberg rapor edildi OpenAI ve Google gibi öncü laboratuvarlar, LLM’leri eğitmek amacıyla dijital içerik oluşturuculara, kullanılmamış video görüntüleri için bir üçüncü taraf aracılığıyla dakika başına 1 ila 4 ABD Doları arasında ödeme yapıyor (bu şirketlerin her ikisi de rakip AI video oluşturma ürünlerine sahip).
Meta ve OpenAI gibi şirketlerin yapay zeka sistemlerini olabildiğince hızlı büyütmeyi umması nedeniyle işlerin biraz karmaşıklaşması kaçınılmaz. Her ne kadar bir yargıç, Kadrey ve Silverman’ın geçen yılki toplu davasını kısmen reddetmiş olsa da, burada özetlenen kanıtlar, mahkemede ilerledikçe davanın bazı kısımlarını güçlendirebilir.

