Amazon Cloud, startup Perplexity AI hakkında bir soruşturma başlattı. WIRED’in (teknoloji ve bilim hakkında güvenilir bir bilgi kaynağı) öğrendiği gibi, girişimin Amazon Web Hizmetleri kurallarını, bunu engellemeye çalışan web sitelerini tarayarak ihlal edip etmediği konusunda şüpheler var.
Bir AWS sözcüsü şirketin Perplexity ile ilgili soruşturmasını doğruladı. WIRED daha önce, Jeff Bezos’un aile vakfı ve Nvidia tarafından desteklenen ve yakın zamanda değeri 3 milyar dolar olan Perplexity’nin, ortak bir web olan robot dışlama protokolü yoluyla erişimi yasaklanan web sitelerinin kazınmasıyla elde edilen içeriğe dayandığını keşfetmişti. standart. Robot hariç tutma protokolü yasal olarak bağlayıcı olmasa da hizmet şartları genel olarak bağlayıcıdır.
Robot Hariç Tutma Protokolü, otomatik botlar ve tarayıcılar tarafından hangi sayfalara erişilemeyeceğini belirlemek için bir etki alanına düz metin dosyası (wired.com/robots.txt gibi) göndermeyi içeren onlarca yıllık bir web standardıdır. Kazıyıcı kullanan şirketler bu protokolü göz ardı etse de çoğu geleneksel olarak bunu izlemiştir. Bir AWS sözcüsü, AWS müşterilerinin web sitelerini tararken robots.txt standardına uyması gerektiğini belirtti.
“AWS Hizmet Şartları saldırgan veya yasa dışı davranışları yasaklamaktadır ve müşterilerimiz bu şartlara uymaktan sorumludur. Bir AWS sözcüsü, düzenli olarak çeşitli kaynaklardan kötüye kullanım şüphesi raporları alıyoruz ve müşterilerimizi bu raporları ele almaları için bilgilendiriyoruz” dedi.
Perplexity’nin uygulamalarına yönelik soruşturma, girişimi en az bir makalesini çalmakla suçlayan 11 Haziran tarihli Forbes raporunun ardından geldi. Soruşturmalar bu uygulamaları doğruladı ve Perplexity’nin yapay zeka destekli arama sohbet robotuyla ilişkili sistemlerin kötüye kullanıldığına dair daha fazla kanıt buldu. WIRED’in ana şirketi Condé Nast’taki mühendisler, bir robots.txt dosyası kullanarak Perplexity tarayıcısını tüm web sitelerinde engelliyor. Ancak WIRED, şirketin, görünüşe göre web sitelerinden veri toplamak için Condé Nast mülklerini son üç ay içinde en az yüzlerce kez ziyaret eden, yayınlanmamış bir IP adresine (44.221.181.252) sahip bir sunucuya erişimi olduğunu keşfetti.
Görünüşe göre Perplexity ile ilişkili sunucu, botların içeriklerine erişmesini engelleyen haber web sitelerini büyük ölçekli olarak tarıyor. The Guardian, Forbes ve The New York Times temsilcileri de sunucularını defalarca ziyaret eden bir IP adresi bulduklarını söyledi. WIRED, IP adresini AWS’de barındırılan bir Elastic Compute Cloud (EC2) sanal makinesine kadar takip etti.
Perplexity CEO’su Aravind Srinivas, WIRED’in soruşturmasına yanıt veren ilk kişi oldu ve şirkete sorulan soruların “Perplexity ve İnternet’in nasıl çalıştığına dair derin ve temel bir yanlış anlaşılmayı yansıttığını” söyledi. Srinivas daha sonra WIRED tarafından keşfedilen IP adresinin Condé Nast web sitelerini taradığını ve oluşturulan test sitesinin web tarama ve indeksleme hizmetleri sağlayan üçüncü taraf bir şirket tarafından işletildiğini bildirdi. Bir gizlilik anlaşmasını gerekçe göstererek şirketin adını vermeyi reddetti. Üçüncü bir taraftan WIRED taramasını durdurmasını isteyip istemediği sorulduğunda Srinivas şu cevabı verdi: “Zor.”
Perplexity sözcüsü Sarah Platnick, şirketin Amazon’un sorularına 26 Haziran’da yanıt verdiğini ve soruşturmayı standart prosedür olarak nitelendirdiğini söyledi. Platnick, Perplexity’nin Amazon’un endişelerine yanıt olarak operasyonlarında herhangi bir değişiklik yapmadığını söylüyor. Bir kullanıcı bir istekte belirli bir URL girdiğinde PerplexityBot’un robots.txt dosyasını yok sayacağını ekledi; bu, Platnick’in “çok nadir” olarak tanımladığı bir kullanım durumudur.
“Bir kullanıcı belirli bir URL istediğinde, bu bir taramayı tetiklemez. Aracı, URL’yi alarak kullanıcı adına hareket eder. Bu, kullanıcının sayfaya gidip makale metnini kopyalayıp Perplexity’ye yapıştırmasıyla aynı şekilde çalışıyor” diyor Platnik.
Perplexity’nin işlevselliğine ilişkin bu açıklama, WIRED’in, sohbet robotunun bazı durumlarda robots.txt dosyasını göz ardı ettiği yönündeki bulgularını doğrulamaktadır.
Üyeleri arasında The New York Times, The Washington Post ve Condé Nast’ın da bulunduğu, dijital içerik endüstrisine yönelik bir ticari birlik olan Digital Content Next, geçen yıl potansiyel telif hakkı ihlallerini önlemek için üretken yapay zekayı yönetmeye yönelik taslak yönergeleri paylaştı. CEO Jason Kint, Perplexity’ye yönelik iddialar doğruysa şirketin bu ilkelerin çoğunu ihlal ettiğini söyledi.
Kint, “Yapay zeka şirketlerinin varsayılan varsayımı, yayıncılardan izinsiz içerik alma ve yeniden kullanma haklarının olmadığıdır” diyor. Perplexity hizmet şartlarını ihlal ederse veya robots.txt dosyasını atlarsa, “o zaman uygunsuz bir şeyin döndüğüne dair bir alarm çalmalı” diye ekliyor.