Soruşturma, şirketlerin izinsiz olarak YouTube içeriğiyle yapay zeka modellerini eğittiğini ortaya koydu

Yapay zeka modelleri, performans gösterebilmek için mümkün olduğunca çok sayıda yararlı veriye ihtiyaç duyar; ancak en büyük yapay zeka geliştiricilerinden bazıları, YouTube’un kendi kurallarını ihlal ederek, içerik oluşturucularından izin alınmadan kısmen transkripsiyonlu YouTube videolarına güveniyor. soruşturma ile Kanıt Haberleri Ve Kablolu.

İki kuruluş, Apple, Nvidia, Anthropic ve diğer büyük yapay zeka şirketlerinin, video yaratıcılarının haberi olmadan, 48.000 kanala ait yaklaşık 175.000 videonun transkriptlerini içeren YouTube Altyazıları adlı bir veri kümesiyle modellerini eğittiğini ortaya koydu.

YouTube Altyazıları veri kümesi, genellikle birden fazla dile çevirileriyle birlikte video altyazılarının metnini içerir. Veri kümesi, veri kümesinin amacını büyük teknoloji şirketlerinin dışındakiler için AI geliştirmenin önündeki engelleri azaltmak olarak tanımlayan EleutherAI tarafından oluşturulmuştur. Bu, Pile adı verilen çok daha büyük EleutherAI veri kümesinin yalnızca bir bileşenidir. YouTube transkriptlerinin yanı sıra Pile’da Wikipedia makaleleri, Avrupa Parlamentosu’ndan konuşmalar ve rapora göre Enron’dan gelen e-postalar bile bulunmaktadır.

Ancak, Pile’ın büyük teknoloji şirketleri arasında çok sayıda hayranı var. Örneğin, Apple, Pile’ı OpenELM AI modelini eğitmek için kullandı, Salesforce AI modeli ise iki yıl önce Pile ile eğitildi ve o zamandan beri 86.000’den fazla kez indirildi.

YouTube Altyazıları veri kümesi, haber, eğitim ve eğlence alanlarındaki popüler kanalların bir yelpazesini kapsar. Bunlara MrBeast ve Marques Brownlee gibi önemli YouTube yıldızlarının içerikleri de dahildir. Hepsinin videoları AI modellerini eğitmek için kullanılmıştır. Proof News bir arama aracı koleksiyonda belirli bir video veya kanalın olup olmadığını görmek için arama yapacak. Aşağıda görüldüğü gibi koleksiyonda birkaç TechRadar videosu bile var.

(Görsel kaynağı: Proof News)

YouTube Altyazıları veri kümesi, videolarının ve ilişkili verilerinin otomatik olarak taranmasını açıkça yasaklayan YouTube’un hizmet şartlarıyla çelişiyor gibi görünüyor. Ancak veri kümesi tam olarak buna dayanıyordu, YouTube’un API’si aracılığıyla altyazıları indiren bir betik. Soruşturma, otomatik indirmenin yaklaşık 500 arama terimi içeren videoları ayıkladığını bildirdi.

Keşif, Proof ve Wired’ın röportaj yaptığı YouTube içerik oluşturucularında büyük bir şaşkınlık ve öfkeye yol açtı. İçeriğin izinsiz kullanımıyla ilgili endişeler geçerli ve içerik oluşturucuların bazıları, çalışmalarının AI modellerinde ödeme veya izin olmadan kullanılması fikrinden rahatsız oldu. Bu, özellikle veri setinin silinmiş videoların transkriptlerini içerdiğini ve bir durumda verilerin, o zamandan beri tüm çevrimiçi varlığını kaldıran bir içerik oluşturucudan geldiğini öğrenenler için geçerlidir.

Raporda EleutherAI’dan herhangi bir yorum yapılmadı. Kuruluşun misyonunu eğitilmiş modeller yayınlayarak AI teknolojilerine erişimi demokratikleştirmek olarak tanımladığı belirtildi. Bu, eğer bu veri kümesi bir ölçütse, içerik oluşturucularının ve platformların çıkarlarıyla çelişebilir. AI üzerindeki yasal ve düzenleyici savaşlar zaten karmaşıktı. Bu tür bir ifşa, AI gelişiminin etik ve yasal manzarasını muhtemelen daha tehlikeli hale getirecektir. AI için yenilik ve etik sorumluluk arasında bir denge önermek kolaydır, ancak bunu üretmek çok daha zor olacaktır.

Bunları da beğenebilirsin

işletim-sistemi-1

Byteknomers

By teknomers

Benzer İçerikler

Çin APT Gelsemium Yeni WolfsBane Arka Kapısıyla Linux Sistemlerini Hedefliyor

The Devil Within Satgat benzeri çarpıcı samuray ruhları 1.0’a çıktı

Wukong Yılın En İyi Oyununu Kazandı

No Man’s Sky Güncellemesi 5.28 Sling Konsollar ve PC’deki Düzeltmelerin Kısa Listesi

Final Fantasy 7 Rebirth, Black Friday İçin Şimdiye Kadarki En Düşük Fiyata Düştü

Kayıp Kahraman Oyun Sonrası İçeriği Ortaya Çıkarıyor

Qualcomm’a göre AMD’nin oyun CPU hakimiyeti tehdit altında olabilir

500 $ indirimle OnePlus Open, bu Kara Cuma günü katlanabilir hayranlar için en iyi seçim

Artık Gemini’ye doğrudan Android paylaşım sayfasından birden fazla dosya yükleyebileceksiniz

Tasarruf uzmanının tercihi: Bu Kara Cuma paranızın karşılığını size daha fazla verecek 3 tablet, ancak bunlardan biri kusurlu

Google’ın kenetsiz 2024 Pixel Tableti bu Kara Cuma haftasında inanılmaz derecede indirimli

Gökbilimciler galaksimizin dışındaki bir yıldızın ilk yakın çekim fotoğrafını çekti

NASA’nın Swift’i geliştirilmiş işaretleme modunda 20. yıl dönümüne ulaştı

NASA okyanus dünyası kaşifleri uçmadan önce yüzmek zorunda

Chandra ve Hubble ‘alev fırlatan’ Gitar Bulutsusu’na uyum sağlıyor

İlginizi Çekebilir

Çin APT Gelsemium Yeni WolfsBane Arka Kapısıyla Linux Sistemlerini Hedefliyor

Yeni rapor, iptal edilenin Pixel Tablet 3 değil Pixel Tablet 2 olduğunu iddia ediyor

The Devil Within Satgat benzeri çarpıcı samuray ruhları 1.0’a çıktı

Honda, Katı Hal Pillerle 2029’a Kadar EV Menzilini İkiye Katlayacak