Halka açık bulut hizmeti sağlayıcısı Cloudflare, platformunda barındırılan web sitelerinden yapay zeka modellerini eğitmek için veri toplayan botları önlemek amacıyla yeni ve ücretsiz bir araç başlattı.
Google, OpenAI ve Apple gibi bazı AI satıcıları, web sitesi sahiplerinin, botlara bir web sitesinde hangi sayfalara erişebileceklerini söyleyen metin dosyası olan robots.txt’yi düzenleyerek veri kazıma ve model eğitimi için kullandıkları botları engellemelerine izin verir. Ancak, Cloudflare’in bir postalamak Botla mücadele aracını duyuran tüm yapay zeka veri toplayıcıları buna saygı duymuyor.
Şirket resmi blogunda “Müşteriler AI botlarının web sitelerini ziyaret etmesini istemiyor, özellikle de bunu dürüst olmayan bir şekilde yapanları,” diye yazıyor. “İçeriğe erişmek için kuralları atlatmaya niyetli bazı AI şirketlerinin bot tespitinden kaçınmak için ısrarla uyum sağlayacağından korkuyoruz.”
Bu nedenle, sorunu ele alma girişiminde Cloudflare, otomatik bot algılama modellerini ince ayarlamak için AI bot ve tarayıcı trafiğini analiz etti. Modeller, diğer faktörlerin yanı sıra, bir AI botunun bir web tarayıcısı kullanan birinin görünümünü ve davranışını taklit ederek algılamadan kaçmaya çalışıp çalışmadığını da göz önünde bulundurur.
“Kötü niyetli kişiler web sitelerini büyük ölçekte taramaya çalıştıklarında, genellikle parmak izlerini çıkarabildiğimiz araçları ve çerçeveleri kullanırlar,” diye yazıyor Cloudflare. “Bu sinyallere dayanarak, modellerimiz [are] “Kaçamak yapay zeka botlarından gelen trafiği uygun şekilde bot olarak işaretleyebilmek.”
Cloudflare, barındırıcıların şüpheli AI botlarını ve tarayıcılarını bildirmeleri için bir form oluşturdu ve zaman içinde AI botlarını manuel olarak kara listeye almaya devam edeceğini söylüyor.
Yapay zeka botları sorunu, üretken yapay zeka patlamasının model eğitim verilerine olan talebi artırmasıyla daha da belirginleşti.
Birçok site, AI satıcılarının içerikleri üzerinde modellere uyarı vermeden veya onları tazmin etmeden eğitim vermesinden endişe ederek, AI kazıyıcılarını ve tarayıcılarını engellemeyi seçti. Birine göre, web’deki en iyi 1.000 sitenin yaklaşık %26’sı OpenAI’nin botunu engelledi çalışmak; bir diğer 600’den fazla haber yayıncısının botu engellediği tespit edildi.
Ancak engelleme kesin bir koruma sağlamaz. Daha önce de değinildiği gibi, bazı satıcılar AI yarışında rekabet avantajı elde etmek için standart bot dışlama kurallarını görmezden geliyor gibi görünüyor. AI arama motoru Perplexity yakın zamanda web sitelerinden içerik toplamak için meşru ziyaretçileri taklit etmekle suçlandı ve OpenAI ve Anthropic’in zaman zaman görmezden gelindi robots.txt kuralları.
İçinde geçen ay yayıncılara mektupİçerik lisanslama girişimi TollBit, aslında “birçok yapay zeka aracısının” robots.txt standardını görmezden geldiğini söylüyor.
Cloudflare’inki gibi araçlar yardımcı olabilir; ancak yalnızca gizli AI botlarını tespit etmede doğru oldukları kanıtlanırsa. Ve onlar alışkanlık Yayıncıların, belirli AI tarayıcılarını engelledikleri takdirde siteleri dahil edilmekten çıkaran Google’ın AI Genel Bakışları gibi AI araçlarından gelen yönlendirme trafiğini feda etme riskiyle karşı karşıya kalmaları gibi daha çözümsüz bir sorunu çözmek.