Bu haftanın başlarında, Wall Street Günlük rapor edildi Yapay zeka şirketlerinin yüksek kaliteli eğitim verileri toplama konusunda duvara tosladığı görüldü. Bugün, New York Times detaylı şirketlerin bununla başa çıkma yöntemlerinden bazıları. Şaşırtıcı olmayan bir şekilde, yapay zeka telif hakkı yasasının bulanık gri alanına giren şeyleri yapmayı içeriyor.

Hikâye, eğitim verileri konusunda umutsuz olan ve en gelişmiş büyük dil modeli olan GPT-4’ü eğitmek için bir milyon saatten fazla YouTube videosunu yazıya dökerek Whisper ses transkripsiyon modelini geliştirdiği bildirilen OpenAI’de açılıyor. bu buna göre New York Times, şirketin bunun yasal olarak şüpheli olduğunu bildiğini ancak bunun adil kullanım olduğuna inandığını bildirdi. OpenAI başkanı Greg Brockman, kullanılan videoların toplanmasında bizzat yer aldı. Zamanlar yazıyor.

OpenAI sözcüsü Lindsay Held şunları söyledi: Sınır Şirketin, “dünyayı anlamalarına yardımcı olmak” ve küresel araştırma rekabetçiliğini sürdürmek için her modeli için “benzersiz” veri kümeleri oluşturduğunu bir e-postada. Held, şirketin “kamuya açık veriler ve kamuya açık olmayan veriler için ortaklıklar dahil olmak üzere çok sayıda kaynak” kullandığını ve kendi sentetik verilerini oluşturmayı düşündüğünü ekledi.

Zamanlar makale, şirketin 2021’de yararlı veri kaynaklarını tükettiğini ve diğer kaynakları inceledikten sonra YouTube videolarını, podcast’lerini ve sesli kitaplarını yazıya dökmeyi tartıştığını söylüyor. O zamana kadar modellerini Github’dan gelen bilgisayar kodları, satranç hamle veritabanları ve Quizlet’ten gelen okul ödevi içeriği gibi veriler üzerinde eğitmişti.

Google sözcüsü Matt Bryant şunları söyledi: Sınır Şirket, bir e-postada OpenAI’nin faaliyetlerine ilişkin “doğrulanmamış raporlar gördüğünü” belirterek, “hem robots.txt dosyalarımızın hem de Hizmet Şartlarımızın YouTube içeriğinin izinsiz olarak kazınmasını veya indirilmesini yasakladığını” ekledi. şirketin kullanım şartları. YouTube CEO’su Neal Mohan, bu hafta OpenAI’nin Sora video oluşturma modelini eğitmek için YouTube’u kullanma olasılığı hakkında benzer şeyler söyledi. Bryant, Google’ın bu tür izinsiz kullanımı önlemek için “bunu yapmak için açık bir yasal veya teknik temele sahip olduğumuzda” “teknik ve yasal önlemler” aldığını söyledi.

Google ayrıca YouTube’dan transkriptleri de topladı. Zamanlar’ kaynaklar. Bryant, şirketin modellerini “YouTube içerik oluşturucularıyla yaptığımız anlaşmalar uyarınca bazı YouTube içerikleri konusunda” eğittiğini söyledi.

Zamanlar Google’ın hukuk departmanının, şirketin gizlilik ekibinden Google Dokümanlar gibi ofis araçları gibi tüketici verileriyle yapabileceklerini genişletmek için politika dilini değiştirmesini istediğini yazıyor. Yeni politikanın, Bağımsızlık Günü tatil haftasonunun dikkat dağınıklığından yararlanmak için 1 Temmuz’da kasıtlı olarak yayınlandığı bildirildi.

Meta aynı şekilde iyi eğitim verilerinin kullanılabilirliğinin sınırlarına da çarptı ve kayıtlarda Zamanlar AI ekibinin, OpenAI’ye yetişmeye çalışırken telif hakkıyla korunan eserlerin izinsiz kullanımını tartıştığı duyuldu. Şirket, “internetteki neredeyse mevcut İngilizce kitap, makale, şiir ve haber makalesini” inceledikten sonra, görünüşe göre kitap lisansları için ödeme yapmak, hatta büyük bir yayıncıyı doğrudan satın almak gibi adımlar atmayı düşündü. Cambridge Analytica skandalının ardından yaptığı gizlilik odaklı değişikliklerle tüketici verilerini kullanma biçimleri de görünüşe göre sınırlıydı.

Google, OpenAI ve daha geniş yapay zeka eğitim dünyası, modelleri için hızla buharlaşan eğitim verileriyle boğuşuyor ve modeller ne kadar çok veri emerse o kadar iyi hale geliyor. Günlük bu hafta şirketlerin 2028 yılına kadar yeni içerikleri geride bırakabileceklerini yazdı.

Bahsedilen soruna olası çözümler Günlük Pazartesi günü, kendi modelleri tarafından oluşturulan “sentetik” verilere ilişkin eğitim modellerini veya “müfredat öğrenimi” olarak adlandırılan ve modellerin yüksek kaliteli verileri düzenli bir şekilde beslemeyi içeren ve kullanabilecekleri “kavramlar arasında daha akıllı bağlantılar” kurmalarını içeren eğitim modellerini içerir. çok daha az bilgi var ancak her iki yaklaşım da henüz kanıtlanmış değil. Ancak şirketlerin diğer seçeneği, izinleri olsun ya da olmasın, bulabildikleri her şeyi kullanmaktır ve geçen yıl içinde açılan çok sayıda davaya dayanarak, bu yolun biraz endişe verici olduğunu söyleyebiliriz.



genel-2