Yapay zeka teknolojilerinin kullanımı yaygınlaştıkça bazı uygulamaların meşruluğuna ilişkin tartışmalar da ortaya çıkıyor. Bu yapay zekayı eğitmek için film ve dizilerdeki altyazıların yoğun şekilde kullanılması, telif haklarına saygı konusunda soru işaretleri doğuruyor. Bu bağlamda birkaç büyük teknoloji şirketi öne çıkıyor.
Dil modellerini eğitmek için altyazıları kullanma
Birkaç yıldır Apple, Meta, Nvidia ve Salesforce gibi devler, dil modellerini mükemmelleştirmek için önemli miktarda veri kullanıyor. Bu veriler arasında çok sayıda film ve televizyon dizisinin altyazıları da yer alıyor. Farklı kaynaklara göre bu diyalog tekrarları, modellerin akademik veya gazetecilik metinlerinin ötesinde insan konuşmasını muazzam bir şekilde taklit etmesine olanak tanıyor.
Bu yöntem özellikle altyazıların aşağıdaki gibi veritabanlarına dahil edilmesine dayanmaktadır: KazıkOpenSubtitles.org’da barındırılmaktadır. Bu platform, 53.000’den fazla film ve 85.000 dizi bölümü sunarak yapay zeka geliştiricileri için önemli bir kütüphane sağlıyor.
İlgili şirketler ve yaklaşımları
Birçok şirketin bu yöntemi kullandığı belirlendi. Bu durum özellikleAntropikbu altyazıları doğrudan ChatGPT rakibi Claude için kullanıyor. Meta ve Apple, sırasıyla LLM ve OPT model ailelerini geliştirmek için aynısını yapıyor. Nvidia, Bloomberg ve EleutherAI gibi diğer oyuncular da yapay zeka yeteneklerini güçlendirmek için bu veri yığınından yararlanıyor.
Tüm bu şirketler daha doğal ve insani diyaloglar üretebilecek sistemler kurmaya çalışıyor. Aslında “iyi yazmak” yapay zeka eğitim verileri dünyasında nadir bulunan bir kaynaktır. Bu nedenle, altyazılar için yazılı diyaloglardan yararlanmak, sözlü konuşmaya özgü nüanslara ve ritimlere yönelik değerli bir pencere sağlar.
Tartışmalı bir kullanım ve yasal çatışmaların kaynağı
Ancak bu sömürü tartışmasız değildir. Telif hakkıyla korunan eserleri izinsiz kullanmakla suçlanan suçlanan şirketlere karşı çok sayıda dava açıldı. Senaristler, yazarlar ve yayınevleri haklarının ihlal edildiğini iddia ediyor. Breaking Bad’in yaratıcısı Vince Gilligan, ABD Telif Hakkı Bürosu’na uygulamayı “olağanüstü derecede karmaşık ve enerji yoğun intihal” olarak nitelendirdi.
Savunmalarında şirketler, yapay zeka sistemlerinin telif hakkıyla korunan çalışmalar konusunda eğitilmesinin adil kullanım teşkil ettiğini iddia ediyor, ancak bu iddia hala nihai yasal doğrulamayı bekliyor. Telif hakkı açısından bakıldığında, mahkemeler altyazıları türetilmiş çalışmalar olarak değerlendirebilir ve böylece yasa dışı kopyalama ve dağıtıma karşı aynı korumadan yararlanabilirler.
Yapay zeka performansında altyazıların rolü
Neden bu özel altyazı seçimi? Çünkü yazılı diyaloğun ham ve temel biçimini temsil ediyorlar. Ders kitaplarından veya bilimsel makalelerden farklı olarak altyazılar, insan konuşmalarının akışını, tonunu ve ritmini doğru bir şekilde yakalar. Bu, bu verilere dayanan sohbet robotlarının doğal olarak insana benzeyen konuşmalar üretmesine olanak tanır.
Altyazıların katkısı bununla bitmiyor. Bu metin parçaları aynı zamanda farklı bağlamlarda (televizyon, sinema ve hatta eğitim) otomatik olarak oluşturulan yanıtları modüle etmek için de kullanılıyor. Yapay zekaların, mevcut sözlü etkileşimlerin çeşitliliğini temsil etmek için büyük edebiyat klasiklerinin ötesine geçerek dil repertuarlarını zenginleştirmelerine yardımcı olurlar.
Orijinal yaratıcıların konumu
Ne yazık ki, altyazıların bu şekilde kullanılması etik ve hukuki bir ikilem yaratmaktadır. Bir yandan geliştiriciler ve araştırmacılar çok sayıda ücretsiz ve erişilebilir dil bilgisinden yararlanıyor. Öte yandan yazarlar ve yaratıcılar, eserlerinin bilgileri dışında ve uygun bir ücret ödenmeden kullanıldığını görüyorlar.
Bu uygulamadan etkilenen yaratıcılara yönelik sıkı düzenleme ve tazminat ödenmesini talep eden İngiliz yazarların temsilcilerinin (WGGB) paylaştığı bir görüş. Jörg Tiedemann gibi bazı veri seti oluşturucuları bile, başlangıçtaki katkılarının kötüye kullanılmasıyla ilgili endişelerini dile getiriyor; bu katkının yararlı olduğu düşünülüyor ancak artık yaratıcı pazar için istilacı.