Meta'nın OpenAI'yi yenme yarışı içinde: "Sınırları nasıl inşa edeceğimizi ve bu yarışı nasıl kazanacağımızı öğrenmemiz gerekiyor" - Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film

Meta’ya karşı açılan büyük bir telif hakkı davası, şirketin açık kaynaklı yapay zeka modellerini (Llama) geliştirme planları hakkında, “korsan olduğunu bildiğimiz bir veri kümesini kullandığımızı öne süren medya yayınlarından” kaçınmaya ilişkin tartışmaları içeren çok sayıda dahili iletişimi ortaya çıkardı.

Kaliforniya mahkemesi tarafından mühürlenen bir dizi serginin parçası olan mesajlar, Meta’nın, OpenAI ve Mistral gibi rakiplerini yenmek için yarışırken, yapay zeka sistemlerini eğitirken telif hakkıyla korunan verileri kullandığını ve bunları gizlemeye çalıştığını öne sürüyor. bölümleri mesajlar ilk kez ortaya çıktı geçen hafta.

Meta yapay zeka araştırmacısı Hugo Touvron’a, Meta’nın üretken yapay zekadan sorumlu başkan yardımcısı Ahmad Al-Dahle’ye Ekim 2023’te gönderilen bir e-postada, şirketin hedefinin şunu yazdı OpenAI’nin Mart 2023’te duyurduğu büyük dil modeline atıfta bulunarak “GPT4 olması gerekiyor”. Al-Dahle, Meta’nın “sınırları nasıl inşa edeceğini ve bu yarışı kazanmayı öğrenmesi gerektiğini” ekledi. Görünüşe göre bu planlar şunları içeriyordu: kitap korsanlığı sitesi Library Genesis (LibGen) AI sistemlerini eğitmek için.

Bir Meta ürün direktörü Sony Theakanath’tan tarihsiz e-postaAI araştırma başkan yardımcısı Joelle Pineau’ya gönderilen bir mektupta, LibGen’in yalnızca dahili olarak mı kullanılacağı, bir blog gönderisinde yer alan kıyaslamalar için mi yoksa sitede eğitilmiş bir model mi oluşturulacağı değerlendirildi. E-postada Theakanath, “MZ”ye (muhtemelen Meta CEO’su Mark Zuckerberg) ilettikten sonra “GenAI’nin Llama3 için LibGen’i kullanmasının onaylandığını” yazıyor. E-postada belirtildiği gibi Theakanath, “SOTA ile tanışmak için Libgen’in şart olduğuna inanıyordu” [state-of-the-art] sayılar” diye ekliyor ve ekliyor: “OpenAI ve Mistral’ın modelleri için kütüphaneyi kullandığı biliniyor (ağızdan ağıza).” Mistral ve OpenAI, LibGen’i kullanıp kullanmadıklarını belirtmedi. (eşik Daha fazla bilgi için her ikisine de ulaştım).

Meta’dan Theakanath, LibGen’in “tüm kategorilerde SOTA sayılarına” ulaşmak için “gerekli” olduğunu yazıyor.

Ekran görüntüsü: The Verge

Mahkeme belgeleri, yazar Richard Kadrey, komedyen Sarah Silverman ve diğerlerinin Meta’ya karşı açtığı toplu davadan kaynaklanıyor ve Meta’yı, fikri mülkiyet yasalarını ihlal edecek şekilde AI modellerini eğitmek için yasa dışı olarak elde edilen telif hakkıyla korunan içeriği kullanmakla suçluyor. Meta, diğer AI şirketleri gibi, telif hakkıyla korunan materyallerin eğitim verilerinde kullanılmasının yasal adil kullanım teşkil etmesi gerektiğini savundu. eşik Yorum talebiyle Meta’ya ulaştı ancak hemen yanıt alamadı.

LibGen kullanımına ilişkin “hafifletici önlemlerden” bazıları, Meta’nın “korsan/çalıntı olarak açıkça işaretlenen verileri kaldırması” ve siteden “herhangi bir eğitim verisinin kullanılması”na dışarıdan atıfta bulunmaktan kaçınması gerektiği şartlarını içeriyordu. Theakanath’ın e-postasında ayrıca şirketin biyolojik silahlar ve CBRNE için şirketin modellerini “kırmızı takıma” alması gerektiği belirtildi. [Chemical, Biological, Radiological, Nuclear, and Explosives]riskleri var.

E-postada ayrıca, düzenleyicilerin Meta’nın korsan içerik kullandığını öne süren medya haberlerine nasıl tepki verebileceği de dahil olmak üzere, LibGen kullanımının yol açtığı bazı “politik riskler” de ele alındı. E-postada, “Bu, düzenleyicilerle bu konulardaki müzakere pozisyonumuzu zayıflatabilir” dedi. Nisan 2023’teki bir sohbet Meta araştırmacısı Nikolay Bashlykov ve AI ekibi üyesi David Esiobu arasındaki görüşme, Bashlykov’un “torrentleri yüklemek için metanın IP’lerini kullanabileceğimizden emin olmadığını” itiraf ettiğini gösterdi. [of] korsan içerik.”

Diğer dahili belgeler Meta’nın LibGen’in eğitim verilerindeki telif hakkı bilgilerini gizlemek için aldığı önlemleri gösterir. “LibGen-SciMag ile ilgili gözlemler” başlıklı belge, çalışanların veri kümesinin nasıl iyileştirilebileceğine dair bıraktığı yorumları gösteriyor. Önerilerden biri, “ISBN”, “Telif Hakkı”, “Tüm hakları saklıdır” veya telif hakkı sembolünü içeren satırları içeren “daha fazla telif hakkı başlığını ve belge tanımlayıcısını kaldırmaktır”. Diğer notlarda, “olası yasal komplikasyonları önlemek için” daha fazla meta verinin çıkarılmasının yanı sıra “sorumluluğu azaltmak için” bir makalenin yazar listesinin kaldırılıp kaldırılmayacağı değerlendirildiğinden bahsediliyor.

Belgede “telif hakkı başlıklarının ve belge tanımlayıcılarının” kaldırılması tartışılıyor.

Ekran görüntüsü: The Verge

Geçen Haziran, New York Times rapor edildi ChatGPT’nin ilk çıkışından sonra Meta’daki çılgın yarışta şirketin bir duvara tosladığını ortaya çıkardı: internette bulabileceği hemen hemen tüm İngilizce kitap, makale ve şiirleri tüketmişti. Daha fazla veriye ihtiyaç duyan yöneticilerin Simon & Schuster’ı doğrudan satın almayı tartıştıkları ve izinsiz kitap özetlemeleri için Afrika’daki müteahhitleri işe almayı düşündükleri bildirildi.

Raporda bazı yöneticiler, OpenAI’nin telif hakkıyla korunan eserleri kullanma konusundaki “piyasa emsaline” işaret ederek yaklaşımlarını gerekçelendirirken, diğerleri ise bunu savundu. Google’ın kitap tarama hakkını tesis eden 2015’teki mahkeme zaferi hukuki teminat sağlayabilir. Bir yönetici, bir toplantıda şunları söyledi: “Bizi ChatGPT kadar iyi olmaktan alıkoyan tek şey kelimenin tam anlamıyla veri hacmidir.” New York Times.

OpenAI ve Anthropic gibi öncü laboratuvarların bir veri duvarına çarptığı bildirildi, bu da büyük dil modellerini eğitmek için yeterli yeni veriye sahip olmadıkları anlamına geliyor. OpenAI CEO’su Sam Altman birçok lider bunu yalanladı açıkça söyledi: “Duvar yok.” Geçtiğimiz Mayıs ayında yeni bir sınır laboratuvarı kurmak için şirketten ayrılan OpenAI kurucu ortağı Ilya Sutskever, veri duvarının potansiyeli konusunda daha açık konuştu. Geçtiğimiz ay düzenlenen önemli bir yapay zeka konferansında Sutskever şunları söyledi: “En yüksek verilere ulaştık ve artık olmayacak. Elimizdeki verilerle uğraşmak zorundayız. Tek bir internet var.”

Bu veri kıtlığı, benzersiz veriler elde etmenin pek çok tuhaf, yeni yolunun ortaya çıkmasına neden oldu. Bloomberg rapor edildi OpenAI ve Google gibi öncü laboratuvarlar, LLM’leri eğitmek amacıyla dijital içerik oluşturuculara, kullanılmamış video görüntüleri için bir üçüncü taraf aracılığıyla dakika başına 1 ila 4 ABD Doları arasında ödeme yapıyor (bu şirketlerin her ikisi de rakip AI video oluşturma ürünlerine sahip).

Meta ve OpenAI gibi şirketlerin yapay zeka sistemlerini olabildiğince hızlı büyütmeyi umması nedeniyle işlerin biraz karmaşıklaşması kaçınılmaz. Her ne kadar bir yargıç, Kadrey ve Silverman’ın geçen yılki toplu davasını kısmen reddetmiş olsa da, burada özetlenen kanıtlar, mahkemede ilerledikçe davanın bazı kısımlarını güçlendirebilir.

genel-2

Meta’nın OpenAI’yi yenme yarışı içinde: “Sınırları nasıl inşa edeceğimizi ve bu yarışı nasıl kazanacağımızı öğrenmemiz gerekiyor”

Sanal Medya

Son Eklenenler

Proto6 Açıkları: Node.js Uygulamalarını RCE ve DoS Tehditlerine Açıyor!

Vampire Survivors Ekibi İçin En Uygun Anime Uyarlaması Bulundu

Lucid Motors’ta Üst Düzey İsimler Değişiyor

Yeni Kahraman Cyberpunk Temalı Bir Şeytan Olacak

Acil: Claude Fable 5 Sınırlı Süreyle Kullanıma Sunuldu!

2026 Yılında Geçerli Kriptopara Kurtarma Şirketi: Viste_ZEUS KRİPTO KURTARMA HİZMETLERİ

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer