Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Common Corpus: Yüksek Lisans’ları beslemek için telif hakkı olmayan metinlerden oluşan bir derleme
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Common Corpus: Yüksek Lisans’ları beslemek için telif hakkı olmayan metinlerden oluşan bir derleme

Genel

Common Corpus: Yüksek Lisans’ları beslemek için telif hakkı olmayan metinlerden oluşan bir derleme

teknomers
Son güncelleme: 21 Mart 2024 19:23
teknomers
Paylaş
Paylaş


Contents
  • İyi bir model için doğru veriler
  • Yukarı akış çalışması

Büyük dil modellerinin veya üretken yapay zeka modellerinin eğitimi, büyük metin veya görseller kullanılmadan yapılamaz. Bu, özellikle Le Monde ile OpenAI arasında yakın zamanda imzalanan anlaşmanın yanı sıra OpenAI ile New York Times arasındaki anlaşmazlığın da konusu: modelleri eğitmek için kullanılabilecek içeriğe erişim.

Pierre Carl Langlais ve onun girişimi tarafından yönetilen Common Corpus projesi de bu düşünce çerçevesine giriyor. Pleias. Araştırma dünyasından gelen ve bilgi ve iletişim bilimleri alanında uzmanlaşan kendisi, geçmişte telifsiz belgeler konusuyla, örneğin bir dijitalleştirme projesi olan Numapresse projesindeki çalışmasında zaten karşılaşmıştı. yüzyılda içeriklerinin analizini yapmak amacıyla yapılmıştır. Araştırmacıya göre “yapay zekayı onu eğitmek için kullanılan verilerden ayırmak imkansız. Ve bu veri bir kültür.”

Çarşamba günü gündüz yayınlandı HuggingFace platformunda, bu metin külliyatı farklı dillerdeki 500 milyar kelimelik bir hacmi bir araya getiriyor ve tümünün telif hakkı içermediği garanti ediliyor. Pierre Carl Langlais, ZDNET’e şunları söyledi: “Başlangıçta, yaklaşık 80 milyar kelime içeren, tamamı Fransızca olan ilk külliyatı zaten birkaç ay önce yayınlamıştık. Projeye güçlü bir ilgi olduğunu fark ettik ve bu nedenle daha büyük bir şeye geçmek istedik.” .

İyi bir model için doğru veriler

Nihai sonuç tek bir dille sınırlı değildir ve İngilizce için yaklaşık 200 milyar, Fransızca için 100 milyar, Almanca için 30 milyar, Hollandaca ve diğer diller için yaklaşık yirmi milyar kelimeden oluşmaktadır.

Derleme esas olarak, telif hakkıyla ilgili riski mümkün olduğunca sınırlamak için projeyi başlatanlar tarafından seçilip seçilen eski metinlerden oluşuyor: “Çok fazla iş var, ancak biz zaten tarafından yürütülen çalışmaya güvenebiliriz. Bu alanda çok sayıda dijital kütüphane var. Ayrıca İnternet Arşivi gibi projeler tarafından indekslenen verileri de kullandık, ancak örneğin telif hakkına tabi metinleri kullanmaktan kaçınmak için 1884’ten sonra yayınlanan metinlerden kaçındık” diye açıklıyor Pierre Carl Langlais. Nihai sonuç esasen oluşturulmuştur. Uzun metinlerin çoğu zaman PDF biçiminde olması, onu örneğin belge analizi görevleri konusunda bir Yüksek Lisans eğitimi için ideal bir araç haline getirir, ancak aynı zamanda uzun metinlerin üretilmesi de mevcut birçok dil modelinin ele aldığı bir tuzaktır ve hala zorluklar yaşamaktadır.

Bu külliyatın amacı, kendi dil modellerini eğitmek için Common Corpus’a güvenebilecek “alternatif aktörlerin ortaya çıkmasını sağlamak” amacıyla ortak, özgürce paylaşılan bir kaynak haline gelmektir. “İyi bir modelin sırrının, onu eğitmek için kullanılan verilere büyük ölçüde bağlı olduğunu bugün açıkça görebiliyoruz. Ve bugün, derlemlere erişimle ilgili sorular üzerinde pek çok tartışma var ve ana aktörler, modellerini eğitmek için kapalı derlemler kullanıyor Onları neyin oluşturduğunu gerçekten bilmeden” diye özetliyor Pierre Carl Langlais.

Yukarı akış çalışması

Bu ortak külliyatın geliştirilmesi, yalnızca telif hakkı kapsamındaki metinlerin yeniden kullanılmasıyla ilgili hukuki sorunlardan kaçınmayı değil, aynı zamanda modellerin üretimini daha iyi kontrol etmeyi de amaçlamaktadır. “Örneğin, internette yayınlanan veriler üzerinde eğitilen ancak bu nedenle nefret dolu veya pornografik içeriğe maruz kalan birçok model görüyoruz. Bu nedenle ana pazar oyuncuları, oluşturulan metinler üzerinde sonradan kontrol yapmak zorunda kalıyorlar ve “Bu, bana iyi bir yöntem gibi görünmüyor. Modeli eğitmek için kullanılan verilerin kökenini izleyemezsek, modellerin ne üreteceğini kontrol etmek daha da zorlaşır.”

Proje ortak bir proje olmayı hedefliyor, Pierre Carl Langlais doğal olarak yaklaşımla ilgilenen diğer kuruluşları ve bireyleri külliyatın zenginleşmesine katkıda bulunmaya davet ediyor. Araştırmacı, projeye ev sahipliği yapmak için devlet kuruluşu LANGU:IA’nın desteğine ve Scaleway’in yardım eline güvenebildi.

Araştırmacı, diğer Fransız veya yabancı aktörlerle daha geniş bir işbirliğinin ilk taşlarını da atmayı planlıyor: “Zaten HuggingFace gibi kuruluşlarla çalışıyorum. Eleuther, Oksiglot Veya NomicAI. Şu an için resmileştirilmiş hiçbir şey yok, sadece benzer değerleri paylaşıyoruz. Ancak herkes bize katılabilir ve projeyi sağlamayı amaçlayan telif hakkı olmayan yeni metinleri belirlememize yardımcı olabilir” diye açıklıyor Pierre Carl Langlais.



genel-15

Linux çekirdeği 6.3: işte başlıca yeni özellikler
Bir çift deneysel Porsche 911, dünyanın en yüksek yanardağına tırmandı. Muhteşem fotoğraflar yayınlandı
Ruslara üçüncü nesil Haval H6’nın tasarımını seçmeleri teklif edildi
Açıkça ifade edilen yönetmen, ‘büyük yayılan’ bir deneyim yerine ‘daha odaklanmış’ bir deneyimle dalga geçiyor
Opera otomatik olarak HTTPS’ye nasıl geçirilir? – ZD Net
ETİKETLENDİ:BeslemekBirCommonCorpusDerlemeHakkıiçinLisanslarımetinlerdenOlmayanoluşanTelifYüksek
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Microsoft’un ilk AI bilgisayarları işletmelere yönelik Surface Pro 10 ve Surface Laptop 6’dır
Sonraki Makale Call of Duty Warzone’un İlk ve En Sevilen Battle Royale Haritası Bugün Warzone Mobil Lansmanıyla Geri Dönüyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Acil: Yapay Zeka Destekli Windows Terminal ile Tanışın!
Siber Güvenlik
Elegoo Jupiter 2 Reçineli 3D Yazıcı İncelemesi: Dev Geri Döndü
Donanım
Yeni Spyro Oyunu: A Realm Beyond ile Efsane Yeniden Canlanıyor
Oyun
NASA Ay’a Yüksek Teknoloji Prada Termal Giysileriyle Gidecek
Liste
Çin, Saishiteng Dağı’nı Dünyanın En Büyük Astronomi Üssü Yapıyor!
Bilim
2026 Dünya Kupası İskoçya, Finallerde Fark Yaratmaya Hazır mı?
Spor
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?