
Openai, bir araştırma makalesine göre yapay zeka (AI) modellerini telif hakkıyla korunan içerik üzerinde eğitmiş olabilir. Kâr amacı gütmeyen kuruluş AI açıklamaları projesinden yakın zamanda yayınlanan bir makale olan San Francisco merkezli AI firmasının son büyük dil modelleri (LLMS), eski modellerine kıyasla telif hakkıyla korunan içeriğin daha yüksek bir şekilde tanınmasını gösterdi. Araştırmacılar, AI modellerinin eğitim veri kümesinde telif hakkıyla korunan içeriği tespit etmek için DE-COP adlı yakın zamanda geliştirilen bir yöntem kullandılar. Özellikle, çalışma GPT-4O mini’nin spesifik telif hakkıyla korunan içerik üzerinde eğitilmediğini bulmuştur.
Araştırmacılar, Openai’nin eğitim veri kümesini test etmek için DE-COP kullandı
. çalışmakLLM eğitim öncesi verilere kamu erişiminin ötesinde başlıklı olarak, Openai’nin AI modellerinin halka açık olmayan kitap içeriği konusunda eğitilip eğitilmediğini kontrol etmek için yapılmıştır. Çalışma için araştırmacılar, çok sayıda telif hakkıyla korunan kitap içeren bir ABD çevrimiçi öğrenme platformu olan O’Reilly Media’ya odaklandılar. Platformun kurucusu Tim O’Reilly de çalışmanın ortak yazarlarından biriydi.
Araştırmacılar, AI modellerinin eğitim verilerinin telif hakkıyla korunan materyal içerip içermediğini test etmek için DE-COP yöntemini kullandılar. Bu, bir kağıt Üyelik çıkarım saldırısı olarak da bilinen yöntem, bir AI modelini, makine tarafından oluşturulan açıklamalı alternatiflerden telif hakkıyla korunan içeriği tanımlayıp tanımlayamayacağını görmek için çoktan seçmeli bir testle bir AI modelini test eder.
Araştırmacılar, telif hakkıyla korunan materyali yorumlamak için Claude 3.5 sonnet kullandılar. Test için 34 O’Reilly medya kitabı 3,962 paragraf alıntı kullanıldı.
Yapılan testlere dayanarak, araştırmacılar, GPT-4O AI modelinin, alıcı çalışma karakteristik eğrisi (AURUC) skoru altında yüzde 82’lik bir alanla telif hakkıyla korunan ve ödeme wwalled O’Reilly kitap içeriğinin en yüksek tanınmasını gösterdiğini iddia ettiler. Özellikle, AURUC skoru DE-COP yönteminin bir parçasıdır ve çoktan seçmeli testten elde edilen tahmin oranlarından türetilmiştir.
Çalışma ayrıca, GPT-3.5 turbo gibi eski Openai AI modellerinin GPT-4O ile karşılaştırıldığında daha az içerik tanıma gösterdiğini, ancak yine de önemli olacak kadar yüksek olduğunu buldu. Bununla birlikte, GPT-4O MINI’nin ödeme duvarı O’Reilly medya kitapları üzerinde eğitilmediği bulunmuştur. Makale, bunun nedeninin testin daha küçük dil modellerine karşı etkili olmamasıdır.

