Apple, Anthropic ve Diğer Yapay Zeka Firmalarının Binlerce YouTube Videosunda Yapay Zeka Modellerini Eğittiği Bildirildi

Apple, Anthropic ve diğer büyük yapay zeka (AI) şirketlerinin, yüz binlerce YouTube videosundan alınan veriler üzerinde AI modellerini eğittiği bildirildi. Yeni bir rapor, birden fazla AI şirketinin, herhangi bir video görüntüsü olmadan videoların altyazılarının düz metnini içeren Pile adlı herkese açık bir veri kümesi kullandığını iddia ediyor. Veriler, MrBeast, Marques Brownlee ve PewDiePie gibi popüler YouTube içerik oluşturucularının yanı sıra CarryMinati, BB ki Vines ve Ashish Chanchlani gibi Hintli YouTube içerik oluşturucularından toplandı.

Birden Fazla Yapay Zeka Modeli’nin YouTube Videoları Üzerinden Eğitildiği Bildirildi

Proof News bir araştırma gerçekleştirdi soruşturma 1.73.536 YouTube videosuna ait altyazı verilerinin 48.000’den fazla kanaldan alındığını bulmak için. Rapora göre, kar amacı gütmeyen bir AI araştırma laboratuvarı olan EleutherAI bu veri setini düzenledi. Daha sonra Apple, Anthropic, Nvidia, Salesforce ve daha fazlası gibi şirketler tarafından kullanıldı. Özellikle, AI laboratuvarı bir araştırma yayınladı kağıt Veri setinin ayrıntılarını vurgulayarak.

EleutherAI, Pile adlı 800 GB’lık bir veri deposu oluşturdu ve AI modellerini eğitmek isteyen ancak büyük veri kümelerini karşılayamayanlar için bunu herkese açık hale getirdi. Veri kümesinin büyük kısmı İngilizce Wikipedia, e-kitaplar ve daha fazlası gibi herkese açık kaynaklardan alındı. Ancak, YouTube Altyazıları adlı bir veri kümesinde derlenen tüm videoların altyazılarını da içeriyordu.

Raporda, araştırma makalesinin açıklamasına dayanarak Pile’ın Apple’ın OpenELM AI modelini eğitmek için kullanıldığı iddia edildi. Salesforce, Nvidia ve Anthropic’in AI modellerinin araştırma makalelerinde de veri setinin kullanımından bahsedildiği bildirildi.

Anthropic sözcüsü Jennifer Martinez yayına yaptığı açıklamada, “Pile, YouTube altyazılarının çok küçük bir alt kümesini içeriyor. YouTube’un şartları, Pile veri kümesinin kullanımından farklı olan platformunun doğrudan kullanımını kapsıyor. YouTube’un hizmet şartlarının olası ihlalleri konusunda, sizi Pile yazarlarına yönlendirmemiz gerekir.” dedi.

Özellikle YouTube’un hizmet şartları yasaklamak platformdaki videolara robotlar, botnet’ler veya kazıyıcılar gibi otomatik araçlar kullanılarak erişilmesini engelliyor. YouTube Altyazıları kazıma kategorisine girecek. Bir Google sözcüsü Proof News’e bir e-posta yanıtında teknoloji devinin “yıllardır kötüye kullanım ve yetkisiz kazımayı önlemek için harekete geçtiğini” söyledi. Ancak, yapay zeka firmalarının verileri kullanımıyla ilgili hiçbir yorum yapılmadı.

Marques Brownlee, X’te (eski adıyla Twitter) paylaştığı bir mesajda, Apple’ın videolarının metinlerini içeren şirketlerden veri aldığını söyledi ancak bunun iPhone üreticisinin hatası olmadığını, çünkü verilerin toplanmadığını vurguladı.

Apple, yapay zekası için verileri çeşitli şirketlerden temin etti

Bunlardan biri benimki de dahil olmak üzere YouTube videolarından tonlarca veri/metin topladı

Apple teknik olarak burada “hatadan” kaçınıyor çünkü kazıyan onlar değil

Ama bu uzun bir süre boyunca gelişen bir sorun olacak https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) 16 Temmuz 2024

Bu veri kümesi kamuya açık olarak toplanıp dağıtılmış olsa da, YouTube gibi platformlarda veri kazımanın başka örnekleri de olabilir. Yapay zeka firmaları büyük dil modellerini (LLM) eğitmek için daha fazla veri bulmak için çabalarken, veri tedariki benzer yasal olarak gri alanlara girmeye devam edebilir.

genel-8

Byteknomers

Birden Fazla Yapay Zeka Modeli’nin YouTube Videoları Üzerinden Eğitildiği Bildirildi

By teknomers

Benzer İçerikler

Sesli mesaj transkriptleri nihayet WhatsApp’a geliyor

RTX 5070 Ti söylentisi 8.960 CUDA çekirdeğine ve 300W TDP’ye işaret ediyor — Blackwell GPU, RTX 5080 ile aynı GB203 kalıbını kullanabilir

Govee Zemin Lambası, Amazon’un Kara Cuma İndirimi İçin Rekor Düşük Fiyatına Düştü

Apple AirPods Pro 2 Kara Cuma Günü En Düşük Fiyatına Düştü

Mega Man Ücretsiz Çizgi Roman Günü’nün Bir Parçası Olacak

Stalker 2: Çernobil’in Kalbi – Guides Hub

Block Blast, Tetris’e Karşı: Yeni, Klasik’e Karşı

Akıllı telefonunuzun sağlık özelliklerini kullanıyor musunuz?

Galaxy Watch Ultra, Peru Donanması eğitim programında yürüyüşe çıkıyor

Görünüşe göre insanlar iPhone Pro modellerini istemiyor

Artık iOS 18.2 beta sürümünde ve yakında kararlı iOS 18.2 sürümünde, iPhone’unuzdaki varsayılan uygulamaları hızlı bir şekilde ayarlayabilirsiniz

Güneşimiz yeni bir simülasyonun yıldızı

Yaşamın kökeni araştırması, RNA’nın hem sol hem de sağ elini kullanan proteinleri destekleyebileceğini ortaya koyuyor

Gökbilimciler galaksimizin dışındaki bir yıldızın ilk yakın çekim fotoğrafını çekti

NASA’nın Swift’i geliştirilmiş işaretleme modunda 20. yıl dönümüne ulaştı

İlginizi Çekebilir

Sesli mesaj transkriptleri nihayet WhatsApp’a geliyor

RTX 5070 Ti söylentisi 8.960 CUDA çekirdeğine ve 300W TDP’ye işaret ediyor — Blackwell GPU, RTX 5080 ile aynı GB203 kalıbını kullanabilir

Govee Zemin Lambası, Amazon’un Kara Cuma İndirimi İçin Rekor Düşük Fiyatına Düştü

SpaceX görüntüsü, en son Starship testi sırasındaki dramatik anı yakaladı