Nvidia’nın kendi AI ürünlerini eğitmek için milyonlarca videoyu çevrimiçi olarak toplamakla suçlanıyor. Kaynaklar, videoların yalnızca araştırma amaçlı olmadığını, Omniverse 3D dünya oluşturucu, otonom araç sistemleri ve Digital Humans avatar oluşturucusu dahil olmak üzere şirketin ürünleri için kullanılması gerektiğini söylüyor. Bu raporların, verileri şu kişilerle paylaşan isimsiz eski bir Nvidia çalışanından geldiği iddia ediliyor: 404 Medya.
Habere göre, birkaç çalışana Nvidia’nın yapay zekasını eğitmek için video indirmeleri talimatı verildi. Birçoğu bu hareketin yasallığı ve etiği konusunda endişelerini dile getirdi, ancak proje yöneticileri sürekli olarak onlara güvence verdi. Nvidia’da Araştırma başkan yardımcısı olan Ming-Yu Liu’nun bir soruya “Bu bir yönetim kararıdır. Tüm veriler için genel bir onayımız var.” şeklinde yanıt verdiği iddia edildi.
Bir AI teknoloji şirketinin izinsiz çevrimiçi içerik toplamakla suçlanması ilk kez olmuyor. OpenAI, Stability AI, Midjourney, DeviantArt ve Runway gibi AI şirketlerine karşı açılmış birçok dava var. Nvidia şu anda bundan etkilenmiyor çünkü esas olarak AI çip veri merkezleri tedarik etmesiyle biliniyor ve bu da onu dünyanın en değerli şirketlerinden biri haline getirdi.
Ancak, Nvidia’nın diğer şirketlerin üzerine inşa edebileceği temel AI modelleri oluşturarak veri işleme oyununa da girmek istediği anlaşılıyor. Şirketin şu anda oldukça rekabetçi AI pazarında bir avantaj elde etmesine yardımcı olmak için, Nvidia’nın sistemlerini devasa bir çevrimiçi video verisi kütüphanesi kullanarak eğitmeyi hedeflediği iddia ediliyor.
Liu bir e-postada, “v1 veri hattını sonlandırıyoruz ve her gün bir insan ömrü boyunca görsel deneyime eşdeğer eğitim verisi üretebilecek bir video veri fabrikası kurmak için gerekli bilgi işlem kaynaklarını güvence altına alıyoruz” dedi.
Bazı kaynaklar Nvidia’nın kamuya açık videoları, ticari olmayan araştırmalar için özel olarak lisanslanmış verileri, YouTube videolarını ve hatta Netflix’ten film ve dizileri kullandığını bildiriyor. Hatta şirketin Netflix’ten kayıt yapmak için ekran yakalama teknolojisini kullanırken filmleri izleyen birileri olacağı bile ima ediliyor, ancak bunun bir şaka olup olmadığını kesin olarak bilemiyoruz. Liu, “Bundan çok sayıda yüksek kaliteli yüz videosu elde etmeliyiz” diye ekliyor.
Yapay zeka eğitimi üzerinde çalışan Nvidia ekibi ayrıca oyun videosu çekmeyi ve GeForce Now ekibinden yardım almayı da değerlendirmeli. Ancak Nvidia’da kıdemli bir araştırma bilimcisi olan Jim Fan, “Henüz istatistiklerimiz veya video dosyalarımız yok çünkü altyapı [sic] henüz çok sayıda canlı oyun videosu ve aksiyonunu yakalamak için ayarlanmadı. Her ikisi de aşılması gereken mühendislik ve düzenleme engelleri. Ancak temizlenmiş ve işlenmiş GFN (GeForce Now) verilerini takım-vfm’ye gelir gelmez ekleyeceğiz.”
404 Media, Cosmos adlı yapay zeka projesinin Şubat 2024’te başladığını söylüyor. Mart ayına kadar ekip 100.000 video indirmişti ve Mayıs ayında gönderilen bir e-postada 38,5 milyon URL derledikleri, bunların neredeyse %40’ının sinematik videolardan geldiği belirtiliyordu.
Cosmos projesinin Nvidia’da ne kadar derin ve geniş olduğu belirsiz, ancak 404 Media, Nvidia CEO’su Jensen Huang’ın bu konuyla ilgili bir e-postaya “Harika güncelleme. Birçok şirket video FM inşa etmek zorunda” şeklinde yanıt verdiğini aktardı. [foundational models]”Tamamen hızlandırılmış bir boru hattı sunabiliriz.”
Nvidia, telif hakkı ve diğer AI eğitim sorunları henüz çözülmemişken modelini oluşturmak için acele ediyor olabilir ve bu da büyük bir yasal gri alana neden oluyor. Şu anda, AI eğitimiyle ilgilenen belirli bir yasa yok, ancak yasa koyucular bunu çoktan fark etti. Kongre’deki birkaç yasa tasarısı, AI Foundation Model Transparency Act ve Generative AI Copyright Disclosure Act gibi özellikle bunu ele alıyor.
Google, AI kazımanın ‘Adil Kullanım’ olduğunu savunuyor, ancak bu yasaların bizi nereye götüreceğini bilmiyoruz. Yani, henüz hiçbir şey siyah beyaz olmasa da, birçok şirket rekabette bir adım öne geçmek için çevrimiçi verilerden en iyi şekilde yararlanmak istiyor.