Openai oldu sanık ile birçok Yapay zekasını telif hakkıyla korunan içerik üzerine eğitmenin tarafları. Şimdi yeni kağıt Bir AI bekçi organizasyonu tarafından, şirketin kamuya açık olmayan kitaplara giderek daha fazla güvendiği konusunda ciddi bir suçlama yapıyor.
AI modelleri esasen karmaşık tahmin motorlarıdır. Birçok veri üzerinde eğitilmiş – kitaplar, filmler, TV şovları vb. Bir model bir Yunan trajedisi üzerine bir deneme “yazdığında” veya Ghibli tarzı görüntüleri “çizdiğinde”, sadece geniş bilgisinden yaklaşık olarak çekiliyor. Yeni hiçbir şeye gelmiyor.
Openai de dahil olmak üzere bir dizi AI laboratuvarı, gerçek dünya kaynaklarını (esas olarak genel ağ) tüketirken AI’yi eğitmek için AI tarafından üretilen verileri kucaklamaya başlarken, çok azı gerçek dünya verilerini tamamen elde etti. Bunun nedeni, tamamen sentetik veriler üzerinde eğitim, bir modelin performansını kötüleştirmek gibi risklerle birlikte gelir.
2024 yılında medya mogul Tim O’Reilly ve ekonomist Ilan Strauss tarafından kurulan kâr amacı gütmeyen bir kuruluş olan AI Açıklamalar Projesi’nden yeni makale, Openai’nin GPT-4O modelini O’Reilly Media’nın ödeme wwalled kitapları üzerinde eğittiği sonucuna varıyor. (O’Reilly, O’Reilly Media’nın CEO’sudur.)
ChatGPT’de GPT-4O varsayılan modeldir. O’Reilly’nin Openai ile lisans anlaşması yok.
“Openai’nin daha yeni ve yetenekli modeli GPT-4O, Paywalled O’Reilly kitap içeriğinin güçlü bir şekilde tanındığını gösterir… Openai’nin önceki model GPT-3.5 Turbo ile karşılaştırıldığında” diye yazdı gazetenin ortak yazarları. “Buna karşılık, GPT-3.5 Turbo, halka açık O’Reilly kitap örneklerinin daha fazla göreceli olarak tanınmasını göstermektedir.”
Kağıtta adlandırılan bir yöntem kullanıldı Copilk olarak 2024 yılında akademik bir makalede tanıtıldı ve dil modellerinin eğitim verilerindeki telif hakkıyla korunan içeriği tespit etmek için tasarlandı. “Üyelik çıkarım saldırısı” olarak da bilinen yöntem, bir modelin insan tarafından yazılan metinleri aynı metnin yorumlu, AI tarafından üretilen sürümlerinden güvenilir bir şekilde ayırt edip edemeyeceğini test eder. Mümkünse, modelin eğitim verilerinden metin hakkında önceden bilgi sahibi olabileceğini düşündürmektedir.
Makalenin ortak yazarları-O’Reilly, Strauss ve AI araştırmacısı Sruly Rosenblat-GPT-4O, GPT-3.5 Turbo ve diğer Openai modellerinin eğitim kesme tarihlerinden önce ve sonra yayınlanan O’Reilly medya kitapları hakkındaki bilgilerini araştırdıklarını söylüyor. Bir modelin eğitim veri kümesine belirli bir alıntının dahil olma olasılığını tahmin etmek için 34 O’Reilly kitabından 13.962 paragraf alıntı kullandılar.
Makalenin sonuçlarına göre, GPT-4O, GPT-3.5 Turbo da dahil olmak üzere Openai’nin eski modellerinden çok daha fazla ödenen O’Reilly kitap içeriğini “tanıdı”. Bu, potansiyel karıştırıcı faktörleri hesaba kattıktan sonra bile, yazarlar, daha yeni modellerin metnin insan yazılıp yazılmadığını anlama yeteneğindeki gelişmeler gibi.
“GPT-4O [likely] Eğitim kesim tarihinden önce yayınlanan kamuya açık olmayan birçok O’Reilly kitabını tanıyor ve bu yüzden önceden bilgilendiriyor ”diye yazdı.
Sigara içen bir silah değil, ortak yazarlar not etmeye dikkat ediyorlar. Deneysel yöntemlerinin kusursuz olmadığını ve Openai’nin ödeme duvarı kitap alıntılarını kopyalayıp chatgpt’e yapıştıran kullanıcılardan topladığını kabul ediyorlar.
Suları daha da çamurlandıran ortak yazarlar, Openai’nin GPT-4.5 ve O3-Mini ve O1 gibi “akıl yürütme” modellerini içeren en son model koleksiyonunu değerlendirmediler. Bu modellerin ödeme duvarı O’Reilly kitap verileri konusunda eğitilmemesi veya GPT-4O’dan daha az miktarda eğitilmiş olması mümkündür.
Bununla birlikte, telif hakkıyla korunan veriler kullanarak modeller geliştirme konusunda daha gevşek kısıtlamaları savunan Openai’nin bir süredir daha yüksek kaliteli eğitim verileri aradığı bir sır değil. Şirket şimdiye kadar gitti Modellerinin çıktılarına ince ayar yapmasına yardımcı olmak için gazetecileri işe alın. Bu daha geniş sektörde bir trend: Bilim ve fizik gibi alanlarda uzmanları işe alan AI şirketleri Bu uzmanların bilgilerini AI sistemlerine etkili bir şekilde beslemelerini sağlayın.
Openai’nin eğitim verilerinin en azından bir kısmını ödediğine dikkat edilmelidir. Şirketin haber yayıncıları, sosyal ağlar, stok medya kütüphaneleri ve diğerleri ile lisans anlaşmaları var. Openai ayrıca devre dışı bırakma mekanizmaları sunar- kusurlu olsa da – Telif hakkı sahiplerinin şirketin eğitim amaçlı kullanmamasını tercih ettikleri içeriği işaretlemelerine izin veren.
Yine de, Openai eğitim veri uygulamaları ve ABD mahkemelerinde telif hakkı yasasının tedavisi konusunda birkaç dava açtığından, O’Reilly makalesi en gurur verici görünüm değildir.
Openai yorum talebine yanıt vermedi.

