OpenAI, GPT-4'ü eğitmek için bir milyon saatten fazla YouTube videosunu yazıya geçirdi - Dünyadan Güncel Teknoloji Haberleri

Bu haftanın başlarında, Wall Street Günlük rapor edildi Yapay zeka şirketlerinin yüksek kaliteli eğitim verileri toplama konusunda duvara tosladığı görüldü. Bugün, New York Times detaylı şirketlerin bununla başa çıkma yöntemlerinden bazıları. Şaşırtıcı olmayan bir şekilde, yapay zeka telif hakkı yasasının bulanık gri alanına giren şeyleri yapmayı içeriyor.

Hikâye, eğitim verileri konusunda umutsuz olan ve en gelişmiş büyük dil modeli olan GPT-4’ü eğitmek için bir milyon saatten fazla YouTube videosunu yazıya dökerek Whisper ses transkripsiyon modelini geliştirdiği bildirilen OpenAI’de açılıyor. bu buna göre New York Times, şirketin bunun yasal olarak şüpheli olduğunu bildiğini ancak bunun adil kullanım olduğuna inandığını bildirdi. OpenAI başkanı Greg Brockman, kullanılan videoların toplanmasında bizzat yer aldı. Zamanlar yazıyor.

OpenAI sözcüsü Lindsay Held şunları söyledi: Sınır Şirketin, “dünyayı anlamalarına yardımcı olmak” ve küresel araştırma rekabetçiliğini sürdürmek için her modeli için “benzersiz” veri kümeleri oluşturduğunu bir e-postada. Held, şirketin “kamuya açık veriler ve kamuya açık olmayan veriler için ortaklıklar dahil olmak üzere çok sayıda kaynak” kullandığını ve kendi sentetik verilerini oluşturmayı düşündüğünü ekledi.

Zamanlar makale, şirketin 2021’de yararlı veri kaynaklarını tükettiğini ve diğer kaynakları inceledikten sonra YouTube videolarını, podcast’lerini ve sesli kitaplarını yazıya dökmeyi tartıştığını söylüyor. O zamana kadar modellerini Github’dan gelen bilgisayar kodları, satranç hamle veritabanları ve Quizlet’ten gelen okul ödevi içeriği gibi veriler üzerinde eğitmişti.

Google sözcüsü Matt Bryant şunları söyledi: Sınır Şirket, bir e-postada OpenAI’nin faaliyetlerine ilişkin “doğrulanmamış raporlar gördüğünü” belirterek, “hem robots.txt dosyalarımızın hem de Hizmet Şartlarımızın YouTube içeriğinin izinsiz olarak kazınmasını veya indirilmesini yasakladığını” ekledi. şirketin kullanım şartları. YouTube CEO’su Neal Mohan, bu hafta OpenAI’nin Sora video oluşturma modelini eğitmek için YouTube’u kullanma olasılığı hakkında benzer şeyler söyledi. Bryant, Google’ın bu tür izinsiz kullanımı önlemek için “bunu yapmak için açık bir yasal veya teknik temele sahip olduğumuzda” “teknik ve yasal önlemler” aldığını söyledi.

Google ayrıca YouTube’dan transkriptleri de topladı. Zamanlar’ kaynaklar. Bryant, şirketin modellerini “YouTube içerik oluşturucularıyla yaptığımız anlaşmalar uyarınca bazı YouTube içerikleri konusunda” eğittiğini söyledi.

Zamanlar Google’ın hukuk departmanının, şirketin gizlilik ekibinden Google Dokümanlar gibi ofis araçları gibi tüketici verileriyle yapabileceklerini genişletmek için politika dilini değiştirmesini istediğini yazıyor. Yeni politikanın, Bağımsızlık Günü tatil haftasonunun dikkat dağınıklığından yararlanmak için 1 Temmuz’da kasıtlı olarak yayınlandığı bildirildi.

Meta aynı şekilde iyi eğitim verilerinin kullanılabilirliğinin sınırlarına da çarptı ve kayıtlarda Zamanlar AI ekibinin, OpenAI’ye yetişmeye çalışırken telif hakkıyla korunan eserlerin izinsiz kullanımını tartıştığı duyuldu. Şirket, “internetteki neredeyse mevcut İngilizce kitap, makale, şiir ve haber makalesini” inceledikten sonra, görünüşe göre kitap lisansları için ödeme yapmak, hatta büyük bir yayıncıyı doğrudan satın almak gibi adımlar atmayı düşündü. Cambridge Analytica skandalının ardından yaptığı gizlilik odaklı değişikliklerle tüketici verilerini kullanma biçimleri de görünüşe göre sınırlıydı.

Google, OpenAI ve daha geniş yapay zeka eğitim dünyası, modelleri için hızla buharlaşan eğitim verileriyle boğuşuyor ve modeller ne kadar çok veri emerse o kadar iyi hale geliyor. Günlük bu hafta şirketlerin 2028 yılına kadar yeni içerikleri geride bırakabileceklerini yazdı.

Bahsedilen soruna olası çözümler Günlük Pazartesi günü, kendi modelleri tarafından oluşturulan “sentetik” verilere ilişkin eğitim modellerini veya “müfredat öğrenimi” olarak adlandırılan ve modellerin yüksek kaliteli verileri düzenli bir şekilde beslemeyi içeren ve kullanabilecekleri “kavramlar arasında daha akıllı bağlantılar” kurmalarını içeren eğitim modellerini içerir. çok daha az bilgi var ancak her iki yaklaşım da henüz kanıtlanmış değil. Ancak şirketlerin diğer seçeneği, izinleri olsun ya da olmasın, bulabildikleri her şeyi kullanmaktır ve geçen yıl içinde açılan çok sayıda davaya dayanarak, bu yolun biraz endişe verici olduğunu söyleyebiliriz.

genel-2

OpenAI, GPT-4’ü eğitmek için bir milyon saatten fazla YouTube videosunu yazıya geçirdi

Byteknomers

By teknomers

Benzer İçerikler

‘Bitcoin İsa’ 50 Milyon Dolarlık Vergi Dolandırıcılığıyla Suçlandı

Google Fotoğraflar, anılardaki yüzler için “Daha az göster” seçeneği üzerinde çalışıyor

Amazon Harika Yaz İndirimi 2024: Samsung, OnePlus, Xiaomi, Poco ve Daha Fazlasında En İyi Mobil Fırsatlar

The Legend of Zelda Filminde Link Konuşması Olacak mı?

İnsanları PS5 Çok Oyunculu Oturumlarına Davet Etmenin Yeni ve Harika Bir Yolu Olacak

Avukat TopSpin 2K25 için 2K’ya Toplu Dava Açmak İçin Baskı Yapıyor “Reklam edildiği Gibi Çalışmıyor”

Todd Howard, Fallout New Vegas oyununa adım atmak istemiyor

Eski amiral gemisi Sony WH-1000XM4 çok güzel bir indirime sahip ve sizinle şahsen tanışmak istiyor

Muhtemelen bu yıl çıkacak olan Apple Watch Ultra 3’ten radikal bir yükseltme beklemeyin

Geçen ay AnTuTu’da Android amiral gemileri arasında en iyi performansı gösteren oyun telefonu oldu

WhatsApp, spam’ı azaltabilecek otomatik kısıtlamalar üzerinde çalışıyor

NASA/JAXA’nın XRISM misyonu yalnızca 36 pikselle eşsiz verileri yakalıyor

NASA’nın Solar Yelken Misyonu Başarıyla Eve Telefon Etti

NASA balonları uzun süreli uçuşlar için Kuzey Kutup Dairesi’nin kuzeyine gidiyor

Bilim İnsanları Mars’ta Güneş Fırtınalarına Hazırlanıyor

İlginizi Çekebilir

‘Auschwitz Dövmecisi’ çevrimiçi nasıl izlenir? – TV kanalı ve yayın akışı

‘Bitcoin İsa’ 50 Milyon Dolarlık Vergi Dolandırıcılığıyla Suçlandı

Efsanevi co-op oyunu geri dönerken Helldivers 2’nin yeni bir rakibi var

Google Fotoğraflar, anılardaki yüzler için “Daha az göster” seçeneği üzerinde çalışıyor