Apple, Anthropic ve diğer büyük yapay zeka (AI) şirketlerinin, yüz binlerce YouTube videosundan alınan veriler üzerinde AI modellerini eğittiği bildirildi. Yeni bir rapor, birden fazla AI şirketinin, herhangi bir video görüntüsü olmadan videoların altyazılarının düz metnini içeren Pile adlı herkese açık bir veri kümesi kullandığını iddia ediyor. Veriler, MrBeast, Marques Brownlee ve PewDiePie gibi popüler YouTube içerik oluşturucularının yanı sıra CarryMinati, BB ki Vines ve Ashish Chanchlani gibi Hintli YouTube içerik oluşturucularından toplandı.
Birden Fazla Yapay Zeka Modeli’nin YouTube Videoları Üzerinden Eğitildiği Bildirildi
Proof News bir araştırma gerçekleştirdi soruşturma 1.73.536 YouTube videosuna ait altyazı verilerinin 48.000’den fazla kanaldan alındığını bulmak için. Rapora göre, kar amacı gütmeyen bir AI araştırma laboratuvarı olan EleutherAI bu veri setini düzenledi. Daha sonra Apple, Anthropic, Nvidia, Salesforce ve daha fazlası gibi şirketler tarafından kullanıldı. Özellikle, AI laboratuvarı bir araştırma yayınladı kağıt Veri setinin ayrıntılarını vurgulayarak.
EleutherAI, Pile adlı 800 GB’lık bir veri deposu oluşturdu ve AI modellerini eğitmek isteyen ancak büyük veri kümelerini karşılayamayanlar için bunu herkese açık hale getirdi. Veri kümesinin büyük kısmı İngilizce Wikipedia, e-kitaplar ve daha fazlası gibi herkese açık kaynaklardan alındı. Ancak, YouTube Altyazıları adlı bir veri kümesinde derlenen tüm videoların altyazılarını da içeriyordu.
Raporda, araştırma makalesinin açıklamasına dayanarak Pile’ın Apple’ın OpenELM AI modelini eğitmek için kullanıldığı iddia edildi. Salesforce, Nvidia ve Anthropic’in AI modellerinin araştırma makalelerinde de veri setinin kullanımından bahsedildiği bildirildi.
Anthropic sözcüsü Jennifer Martinez yayına yaptığı açıklamada, “Pile, YouTube altyazılarının çok küçük bir alt kümesini içeriyor. YouTube’un şartları, Pile veri kümesinin kullanımından farklı olan platformunun doğrudan kullanımını kapsıyor. YouTube’un hizmet şartlarının olası ihlalleri konusunda, sizi Pile yazarlarına yönlendirmemiz gerekir.” dedi.
Özellikle YouTube’un hizmet şartları yasaklamak platformdaki videolara robotlar, botnet’ler veya kazıyıcılar gibi otomatik araçlar kullanılarak erişilmesini engelliyor. YouTube Altyazıları kazıma kategorisine girecek. Bir Google sözcüsü Proof News’e bir e-posta yanıtında teknoloji devinin “yıllardır kötüye kullanım ve yetkisiz kazımayı önlemek için harekete geçtiğini” söyledi. Ancak, yapay zeka firmalarının verileri kullanımıyla ilgili hiçbir yorum yapılmadı.
Marques Brownlee, X’te (eski adıyla Twitter) paylaştığı bir mesajda, Apple’ın videolarının metinlerini içeren şirketlerden veri aldığını söyledi ancak bunun iPhone üreticisinin hatası olmadığını, çünkü verilerin toplanmadığını vurguladı.
Apple, yapay zekası için verileri çeşitli şirketlerden temin etti
Bunlardan biri benimki de dahil olmak üzere YouTube videolarından tonlarca veri/metin topladı
Apple teknik olarak burada “hatadan” kaçınıyor çünkü kazıyan onlar değil
Ama bu uzun bir süre boyunca gelişen bir sorun olacak https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) 16 Temmuz 2024
Bu veri kümesi kamuya açık olarak toplanıp dağıtılmış olsa da, YouTube gibi platformlarda veri kazımanın başka örnekleri de olabilir. Yapay zeka firmaları büyük dil modellerini (LLM) eğitmek için daha fazla veri bulmak için çabalarken, veri tedariki benzer yasal olarak gri alanlara girmeye devam edebilir.