Üretken yapay zekanın hakim olduğu, sohbet robotlarının internetten alınan içeriklere dayanarak sorulara detaylı yanıtlar verebildiği bir çağda, adil kullanım ile intihal arasındaki ve rutin web tarama ile etik olmayan özetleme arasındaki çizgi oldukça incedir.

Perplexity AI, yalnızca bağlantılar yerine ayrıntılı yanıtlar üreten büyük bir dil modeliyle bir arama motorunu birleştiren bir girişimdir. OpenAI’nin ChatGPT’si ve Anthropic’in Claude’unun aksine, Perplexity kendi temel AI modellerini eğitmez, bunun yerine internetten topladığı bilgileri alıp yanıtlara dönüştürmek için açık veya ticari olarak mevcut olanları kullanır.

Ancak Haziran ayındaki bir dizi suçlama, girişimin yaklaşımının etik dışı olma sınırında olduğunu gösteriyor. Forbes, Perplexity’yi girişimin beta Perplexity Pages özelliğinde haber makalelerinden birini intihal etmekle suçladı. Ve Wired, Perplexity’yi suçladı kendi web sitesinin yanı sıra diğer sitelerin de yasadışı olarak taranması.

Nisan ayından itibaren 3 milyar dolara yakın bir değerlemeyle 250 milyon dolar toplamak için çalışan Perplexity, hiçbir yanlış yapmadığını iddia ediyor. Nvidia ve Jeff Bezos destekli şirket, yayıncıların içerikleri kopyalamama isteklerini yerine getirdiğini ve adil kullanım telif hakkı yasalarının sınırları içinde faaliyet gösterdiğini söylüyor.

Durum karmaşıktır. Özünde iki kavramı çevreleyen nüanslar vardır. Birincisi, web sitelerinin içeriklerine web tarayıcıları tarafından erişilmesini veya kullanılmasını istemediklerini belirtmek için kullandıkları bir standart olan Robots Exclusion Protocol’dür. İkincisi, telif hakkı yasasında, belirli durumlarda izin veya ödeme olmadan telif hakkıyla korunan materyalin kullanımına izin veren yasal çerçeveyi oluşturan adil kullanımdır.

Gizlice web içeriğini taramak

Resim Kredileri: Getty Images

Wired’ın 19 Haziran tarihli haberi, Perplexity’nin yayıncıların botların erişmesini istemediği web sitelerinin alanlarını gizlice taramak için Robot Dışlama Protokolünü görmezden geldiğini iddia ediyor. Wired, Perplexity’ye bağlı bir makinenin bunu kendi haber sitesinde ve ana şirketi Condé Nast’ın altındaki diğer yayınlarda yaptığını gözlemlediğini bildirdi.

Raporda geliştiricinin Robb Knight da benzer bir deney yürüttü ve aynı sonuca vardık.

Hem Wired muhabirleri hem de Knight, Perplexity’den bir dizi URL’yi özetlemesini isteyerek ve ardından sunucu tarafında Perplexity ile ilişkili bir IP adresinin bu siteleri ziyaret etmesini izleyerek şüphelerini test ettiler. Perplexity daha sonra bu URL’lerdeki metni “özetledi” — ancak Wired’ın bu amaçla oluşturduğu sınırlı içerikli bir kukla web sitesi durumunda, sayfadaki metni kelimesi kelimesine döndürdü.

İşte Robot Dışlama Protokolü’nün nüansları tam da bu noktada devreye giriyor.

Web kazıma teknik olarak tarayıcılar olarak bilinen otomatik yazılım parçaları web’i tarayıp web sitelerinden bilgi topladığında. Google gibi arama motorları bunu web sayfalarının arama sonuçlarına dahil edilebilmesi için yapar. Diğer şirketler ve araştırmacılar pazar analizi, akademik araştırma ve öğrendiğimiz kadarıyla makine öğrenimi modellerini eğitmek için internetten veri toplamak amacıyla tarayıcıları kullanır.

Bu protokole uyan web kazıyıcılar, öncelikle bir sitenin kaynak kodunda “robots.txt” dosyasını arayarak neyin izin verilip neyin verilmediğini görecektir; bugün, izin verilmeyen şey genellikle yapay zeka için büyük eğitim veri kümeleri oluşturmak üzere bir yayıncının sitesini kazımaktır. Perplexity de dahil olmak üzere arama motorları ve yapay zeka şirketleri, protokole uyduklarını belirtmişlerdir ancak bunu yapmak için yasal olarak bir zorunlulukları yoktur.

Perplexity’nin iş başkanı Dmitry Shevelenko, TechCrunch’a bir URL’yi özetlemenin taramayla aynı şey olmadığını söyledi. Shevelenko, “Tarama, sadece etrafta dolaşıp bilgileri emip dizininize eklemektir,” dedi. Perplexity’nin IP’sinin, yalnızca bir kullanıcı sorgusuna bir URL koyduğunda, “başka bir şekilde robots.txt’den yasaklanmış” bir web sitesinin ziyaretçisi olarak görünebileceğini ve bunun “tarama tanımına uymadığını” belirtti.

Shevelenko, “Biz sadece o URL’ye gitmemiz yönündeki doğrudan ve belirli bir kullanıcı talebine yanıt veriyoruz” dedi.

Başka bir deyişle, bir kullanıcı bir URL’yi manuel olarak bir yapay zekaya sağladığında, Perplexity’nin söylediğine göre yapay zeka bir web tarayıcısı gibi değil, kullanıcının talep ettiği bilgileri almasına ve işlemesine yardımcı olan bir araç gibi davranıyor.

Ancak Wired ve diğer pek çok yayıncı için bu, fark yaratmayan bir ayrımdır; çünkü bir URL’yi ziyaret edip, metni özetlemek için bilgileri çekmek, günde binlerce kez yapılıyorsa, kazımaya çok benzer.

(Wired ayrıca Perplexity’nin bulut hizmeti sağlayıcılarından biri olan Amazon Web Services’in de başlangıcı araştırıyor (Kullanıcıların istemlerinde atıfta bulundukları web sayfalarını taramak için robots.txt protokolünü görmezden geldiği için. AWS, TechCrunch’a Wired’ın raporunun doğru olmadığını ve medya soruşturmasını, hizmetin kötüye kullanıldığına dair diğer raporlar gibi işlediğini söylediğini söyledi.)

İntihal mi yoksa makul kullanım mı?

Perplexity Pages'in ekran görüntüsü
Forbes, Perplexity’yi eski Google CEO’su Eric Schmidt’in yapay zeka destekli savaş uçağı geliştirdiği haberini kendi haberinden alıntı yapmakla suçladı.
Resim Kredileri: Şaşkınlık / Ekran Görüntüsü

Wired ve Forbes da Perplexity’yi intihalle suçladı. Wired ironik bir şekilde diyor ki Şaşkınlık makaleyi kopyaladı Girişimin web içeriğini gizlice topladığını belirten

Wired muhabirleri, Perplexity sohbet robotunun “altı paragraftan oluşan bir metin ürettiğini” söyledi. 287 kelimelik metin Hikayenin sonuçlarını ve bu sonuçlara ulaşmak için kullanılan kanıtları yakından özetleyen bir cümle, orijinal hikayeden bir cümleyi birebir kopyalıyor; Wired bunun intihal teşkil ettiğini söylüyor. Poynter Enstitüsü’nün yönergeleri Yazarın (veya yapay zekanın) orijinal kaynak eserden art arda yedi kelime kullanması durumunda bunun intihal olabileceğini söyleyebiliriz.

Forbes ayrıca Perplexity’yi intihalle suçladı. Haber sitesi bir soruşturma raporu Haziran ayının başlarında Google CEO’su Eric Schmidt’in yeni girişiminin yoğun bir şekilde işe alım yaptığı ve askeri uygulamalarla AI destekli dronları test ettiği hakkında. Ertesi gün, Forbes editörü John Paczkowski X’te yayınlandı Perplexity’nin olduğunu söyleyerek haberi yeniden yayınladı Perplexity Pages beta özelliğinin bir parçası olarak.

Şaşkınlık SayfalarıPerplexity’ye göre, şimdilik yalnızca belirli Perplexity abonelerine açık olan , kullanıcıların araştırmalarını “görsel olarak çarpıcı, kapsamlı içeriklere” dönüştürmelerine yardımcı olmayı vaat eden yeni bir araçtır. Sitedeki bu tür içeriklere örnekler, girişimin çalışanlarından gelir ve “Davul çalmaya yeni başlayanlar için bir rehber” veya “Steve Jobs: vizyon sahibi CEO” gibi makaleler içerir.

“Bizim haberlerimizin çoğunu kopyalıyor,” diye yazdı Paczkowski. “Bizi ve bizi yeniden bloglayan birkaç kişiyi, mümkün olan en kolay görmezden gelinebilecek şekilde kaynak olarak gösteriyor.”

Forbes bildirdi Perplexity ekibi tarafından düzenlenen gönderilerin çoğunun “Forbes, CNBC ve Bloomberg dahil olmak üzere birden fazla yayından alınan orijinal hikayelere çarpıcı biçimde benzediğini” söyledi. Forbes, gönderilerin on binlerce görüntüleme aldığını ve makale metninde hiçbir yayının adının geçmediğini söyledi. Bunun yerine, Perplexity’nin makaleleri “kendilerine bağlantı veren küçük, gözden kaçması kolay logolar” biçiminde atıflar içeriyordu.

Ayrıca Forbes, Schmidt hakkındaki gönderinin Forbes’un haberine “neredeyse aynı ifadeleri” içerdiğini söyledi. Toplama ayrıca, Perplexity tarafından hafifçe değiştirilmiş gibi görünen Forbes tasarım ekibi tarafından oluşturulan bir görseli de içeriyordu.

Perplexity CEO’su Aravind Srinivas, o dönemde Forbes’a verdiği demeçte, girişimin gelecekte kaynakları daha belirgin bir şekilde göstereceğini söylemişti. Bu, atıfların teknik zorluklarla karşılaşması nedeniyle kusursuz bir çözüm değildi. ChatGPT ve diğer modellerin halüsinasyonlu bağlantıları varve Perplexity OpenAI modellerini kullandığından, bu tür halüsinasyonlara yatkın olması muhtemeldir. Aslında Wired, Perplexity’nin tüm hikayeleri halüsinasyon gördüğünü gözlemlediğini bildirdi.

Srinivas ve şirket, Perplexity’nin “pürüzlü taraflarını” not etmenin yanı sıra, Perplexity’nin bu tür içerikleri özetleme amacıyla kullanma hakkını büyük ölçüde ikiye katladılar.

İşte adil kullanımın nüansları burada devreye giriyor. İntihal hoş karşılanmasa da teknik olarak yasadışı değildir.

Göre ABD Telif Hakları Ofisialıntılar da dahil olmak üzere bir eserin sınırlı bölümlerini yorum, eleştiri, haber raporlaması ve akademik raporlar gibi amaçlarla kullanmak yasaldır. Perplexity gibi yapay zeka şirketleri, bir makalenin özetini sağlamanın makul kullanım sınırları içinde olduğunu ileri sürmektedir.

“Kimsenin gerçekler üzerinde tekeli yok,” dedi Shevelenko. “Gerçekler bir kez ortaya çıktığında, herkes kullanabilir.”

Shevelenko, Perplexity’nin özetlerini, gazetecilerin kendi haberlerini desteklemek için sıklıkla diğer haber kaynaklarından bilgi kullanmalarına benzetti.

UCLA Teknoloji, Hukuk ve Politika Enstitüsü’nde hukuk profesörü olan Mark McKenna, TechCrunch’a durumun çözülmesinin kolay olmadığını söyledi. Adil kullanım davasında, mahkemeler özetin orijinal makalenin ifadelerinin çoğunu kullanıp kullanmadığını, yoksa sadece fikirleri kullanıp kullanmadığını değerlendirir. Ayrıca özeti okumanın makaleyi okumanın yerine geçip geçmediğini de inceleyebilirler.

McKenna, “Parlak çizgiler yok,” dedi. “Bu yüzden [Perplexity] Bir makalenin ne söylediğini veya ne bildirdiğini gerçekçi bir şekilde söylemek, eserin telif hakkıyla korunamayan yönlerini kullanmak olurdu. Bu sadece gerçekler ve fikirler olurdu. Ancak özet gerçek ifade ve metin içerdiğinde, sadece bir özet olmaktan ziyade çoğaltmaya daha çok benzemeye başlar.”

Yayıncılar açısından talihsizlik şu ki, Perplexity tam ifadeleri kullanmıyorsa (ve görünen o ki bazı durumlarda kullanıyor), özetleri makul kullanım ihlali olarak değerlendirilmeyebilir.

Perplexity kendini nasıl korumayı amaçlıyor

OpenAI gibi AI şirketleri, algoritmalarını eğitmek için güncel ve arşiv içeriklerine erişmek üzere çeşitli haber yayıncılarıyla medya anlaşmaları imzaladı. Karşılığında, OpenAI, ChatGPT’deki kullanıcı sorgularına yanıt olarak bu yayıncılardan haber makaleleri sunmayı vaat ediyor. (Ancak bu bile çözülmesi gereken bazı pürüzler var(Nieman Lab’ın geçen hafta bildirdiği gibi)

Perplexity, belki de aleyhindeki suçlamaların yatışmasını bekleyerek kendi medya anlaşmalarını duyurmaktan kaçındı. Ancak şirket, yayıncılarla bir dizi reklam geliri paylaşım anlaşması konusunda “tam gaz ilerliyor”.

Fikir, Perplexity’nin sorgu yanıtlarının yanında reklamlar eklemeye başlaması ve herhangi bir yanıtta içerik alıntılanan yayıncıların ilgili reklam gelirinin bir kısmını almasıdır. Shevelenko, Perplexity’nin ayrıca yayıncıların teknolojisine erişebilmeleri için çalıştığını, böylece soru-cevap deneyimleri oluşturabileceklerini ve ilgili sorular gibi şeyleri kendi sitelerinde ve ürünlerinde doğal olarak destekleyebileceklerini söyledi.

Peki bu, sistemsel IP hırsızlığı için sadece bir kılıf mı? Perplexity, okuyucuların orijinal kaynak materyale tıklama ihtiyacını fark edemeyecekleri kadar eksiksiz bir içerik özetlemekle tehdit eden tek sohbet robotu değil.

Ve eğer bu tür AI kazıyıcılar yayıncıların çalışmalarını alıp kendi işleri için yeniden kullanmaya devam ederse, yayıncıların reklam doları kazanması daha zor olacak. Bu da sonunda kazınacak daha az içerik olacağı anlamına geliyor. Kazınacak daha fazla içerik kalmadığında, üretken AI sistemleri sentetik veriler üzerinde eğitime yönelecek ve bu da potansiyel olarak önyargılı ve yanlış içeriklerden oluşan cehennem azabı bir geri bildirim döngüsüne yol açabilir.



genel-24