Bir rapora göre OpenAI, en son yapay zeka (AI) modeli GPT-4’ü eğitmek için YouTube videolarından bir milyon saatten fazla kopyalanmış veri kullanmış olabilir. Ayrıca, ChatGPT yapımcısının yapay zeka modellerini eğitmek için metin-kelime kaynaklarının tamamını tükettiği için verileri YouTube aracılığıyla tedarik etmek zorunda kaldığını belirtiyor. İddia doğruysa, halihazırda telif hakkıyla korunan verileri kullandığı için çok sayıda davayla mücadele eden yapay zeka firması için yeni sorunlara yol açabilir. Geçtiğimiz ay yayınlanan bir raporda, GPT Mağazasının şirketin yönergelerini ihlal eden mini sohbet robotları içerdiği vurgulandı.

İçinde raporNew York Times, yapay zeka modellerini eğitmek için benzersiz metin sözcükleri içeren kaynaklar tükendikten sonra şirketin, YouTube videolarını yazıya dökmek ve verileri kullanarak modellerini eğitmek için Whisper adında bir otomatik konuşma tanıma aracı geliştirdiğini iddia etti. OpenAI, Whisper’ı Eylül 2022’de halka açık olarak piyasaya sürdü ve AI firması, 6.80.000 saatlik “web’den toplanan çok dilli ve çoklu görev denetimli veriler” konusunda eğitildiğini söyledi.

Rapor ayrıca, konuya aşina olan isimsiz kaynaklara atıfta bulunarak, OpenAI çalışanlarının YouTube verilerinin kullanılmasının platformun kurallarını ihlal edip edemeyeceğini ve kendilerini yasal soruna yol açıp açamayacağını tartıştıklarını iddia ediyor. Özellikle Google, videoların platformdan bağımsız uygulamalar için kullanılmasını yasaklamaktadır.

Rapora göre şirket sonunda planı uygulamaya koydu ve bir milyon saatten fazla YouTube videosunu yazıya döktü ve metin GPT-4’e aktarıldı. Ayrıca NYT raporu, OpenAI Başkanı Greg Brockman’ın sürece doğrudan dahil olduğunu ve videolardan veri toplanmasına kişisel olarak yardımcı olduğunu da iddia ediyor.

Konuşuyorum The Verge ile birlikte OpenAI sözcüsü Matt Bryant, raporların doğrulanmadığını söyledi ve “Hem robots.txt dosyalarımız hem de Hizmet Şartlarımız, YouTube içeriğinin izinsiz olarak kazınmasını veya indirilmesini yasaklıyor” diyerek bu tür faaliyetleri reddetti. Diğer bir sözcü Lindsay Held ise yayına, veri kaynağı olarak “kamuya açık veriler ve kamuya açık olmayan veriler için ortaklıklar da dahil olmak üzere çok sayıda kaynak” kullandığını söyledi. Ayrıca yapay zeka firmasının gelecekteki yapay zeka modellerini eğitmek için sentetik verileri kullanma olasılığını araştırdığını da sözlerine ekledi.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.



genel-8