ChatGPT ve diğer üretken yapay zeka modellerinin iki ucu keskin kılıç olduğu inkar edilemez: İş üretkenliğini ve otomasyonu artırmada büyük değer sağlasalar da, özellikle içerik ve veri gizliliği açısından ciddi riskler taşırlar. Aşağıdakileri göz önünde bulundurun: Ya tüm iş modeliniz içeriğe dayalıysa ve başarı, içeriğinizin mümkün olan maksimum sayıda “tekil ziyaretçi” için tutarlı değeri, görünürlüğü ve erişilebilirliğine bağlıysa? İçerik kazıma etrafındaki tartışmaya girin.

İçerik Çıkarmanın İyi Tarafı

İçerik (veya Web) kazıma işlemi, içeriği yakalamak ve depolamak için botları kullanır. Web kazımanın kesin faydaları vardır. Makine öğrenimi ile birlikte kullanılırsa yardımcı olabilir haber önyargısını azaltmak web sitelerinden büyük miktarda veri ve bilgi toplayarak ve içeriğin yanı sıra üslubun doğruluğunu değerlendirmek için makine öğrenimi yeteneklerinden yararlanarak.

İçerik kazıma teknikleri ayrıca bilgileri hızlı bir şekilde toplayabilir ve veri çıkarma süresini ve görevi tamamlamak için insanlara bağımlılığı azaltmak için otomasyondan yararlanarak maliyetlerden tasarruf sağlayabilir. Ancak önemli riskler de var.

İçerik Çıkarmanın Kötü Tarafı

Bu risklerden biri, küresel bir e-ticaret sitesiyle ilk çalışmaya başladığımızda belirgindi. inanılmaz bir şey bulduk Site trafiğinin %75’i bot tarafından oluşturuldu, bunların çoğu kazıma botlarıydı. Botlar, Dark Web’de satılabilecek veya sahte kimlikler oluşturmak veya yanlış bilgilendirme veya dezenformasyonu teşvik etmek gibi potansiyel olarak hain şekillerde kullanılabilecek verileri kopyaladı.

Başka bir örnek, sahte “Googlebot’lar”dır – kendilerini SEO dostu tarayıcılar olarak gizleyerek web sitelerinde, mobil uygulamalarda ve uygulama programlama arayüzlerinde (API’ler) tespit edilmekten kaçındıkları için özellikle tehlikeli olan ve önemli zararlara neden olan kazıyıcı botlardır. Web sitelerinin Google’da iyi bir sıralamaya ihtiyaç duyduğunu bilen fırsatçı tehdit aktörleri, Googlebot’lara benzeyen ancak web sitelerine, uygulamalara veya API’lere eriştikten sonra kötü amaçlı faaliyetler gerçekleştiren botlar geliştirir.

Aradaki Gri Alan

ChatGPT, internetten kazınan büyük miktarda veri üzerinde eğitilerek çok çeşitli soruları yanıtlayabilir. ChatGPT özellikle büyük ölçüde şu konularda eğitildi: Ortak TaramaWeb tarama verilerinin açık bir havuzunu üreten ve sürdüren, büyük dil modelleri (LLM’ler) için büyük miktarda bilgiye erişim sağlayan. Common Crawl meşru, kâr amacı gütmeyen bir kuruluştur. Ancak, paletli botunu (CCBot) kullanarak, ChatGPT ve diğer LLM’ler, özel olarak korunmayan herhangi bir içerik üzerinde eğitim toplayabilir ve etkinleştirebilir.

Bu etkinlik önemli konulara kapı aralıyor. Uzmanlarla röportaj yapan, bir konuyu araştıran ve bir makaleyi mükemmelleştiren bir gazeteciyi düşünün, ancak içeriği yalnızca ChatGPT tarafından atıf yapılmadan alıntılanmıştır. Bir web kazıma botu sayesinde gazetecinin sıkı çalışması artık tamamen kayboldu. Ayrıca, okuyucular artık gazetecinin makaleyi yayınladığı orijinal web sitesine tıklamıyor, bu da web sitesi trafiğinde ve dolayısıyla alan adı otoritesinde ve potansiyel olarak reklam gelirinde kayıplara yol açıyor.

Benzer şekilde, yapay zekanın rapçiyi kopyalamak için kullanıldığı son olayı düşünün. Drake’in TikTok’ta viral olan – yazmadığı ve dahil olmadığı – bir şarkıdaki ses. Bu, yasal ve telif hakkı sorularının yanı sıra yapay zeka ve müziğin geleceği hakkında daha geniş kapsamlı tartışmaları gündeme getiriyor.

Peki, bu kötü niyetli davranış örnekleri mi, yoksa daha çok etik bir tartışma veya iş operasyonu sorusu mu? Bunların çoğu, genellikle “adil kullanım” olarak değerlendirdiğimizin ötesine geçebilse de, yapay zeka inovasyonu, yasalarımızın ve düzenlemelerimizin ayak uydurabileceğinden daha hızlı ilerliyor ve bu kazıma faaliyetinin çoğunu gri alanda bir yere koyuyor. Ayrıca şirketlere nasıl ilerleyeceklerine karar vermeleri için kapıyı açık bırakıyor: içeriği engellemek mi yoksa engellememek mi?

Peki şimdi ne olacak?

ChatGPT veya diğer üretici yapay zeka araçlarının verileriniz üzerinde eğitim yapmasını istemiyorsanız atabileceğiniz ilk adım, Common Crawler botu CCBot’tan gelen trafiği engellemektir. Bu, bir kod satırıyla veya CCBot kullanıcı aracısını engelleyerek yapılabilir. Ancak, ChatGPT eklentisinden oluşturulan trafiğin bir kısmı artık insan trafiğini taklit edebilen gelişmiş robotlardan geliyor. Dolayısıyla, CCBot’u bloke etmek yeterli değildir. Ayrıca, ChatGPT gibi LLM’lerin içeriği kazımak için aynı şekilde engellenmesi o kadar kolay olmayan başka, daha gizli yöntemler kullandığını da belirtmekte fayda var.

Diğer bir seçenek de içeriği bir ödeme duvarının arkasına yerleştirmektir. Bu, kazıyıcı içerik için ödeme yapmadığı sürece kazımayı önleyecektir. Ancak bu aynı zamanda bir medya web sitesinin organik olarak alacağı görüntüleme sayısını da sınırlar ve (insan) okuyucuları rahatsız etme riskini taşır. Ancak AI teknolojik inovasyonunun inanılmaz hızıyla, bu gelecekte yeterli olacak mı?

Çok sayıda web sitesi, Web kazıyıcıların Common Crawl’a sağlanan veya ChatGPT ve benzeri araçların üzerinde çalıştığı verileri toplamasını engellemeye başlarsa, geliştiriciler, tarayıcı kimliklerini kullanıcı aracılarında paylaşmayı bırakabilir ve şirketleri tespit etmek ve engellemek için daha karmaşık ve gelişmiş teknikler kullanmaya zorlayabilir. kazıyıcılar.

Ek olarak, OpenAI ve Google gibi şirketler, Bing ve Google arama motoru kazıyıcı botlarını kullanarak yapay zeka modellerini eğitebilecek veri kümeleri oluşturmaya karar verebilir. Bu, içeriklerini dizine eklemek ve web sitelerine trafik çekmek için Bing ve Google’a güvenen çevrimiçi işletmelerin veri toplamayı devre dışı bırakmasını zorlaştıracaktır.

Yapay zekanın ve içerik kazımanın geleceğini yalnızca zaman gösterecek, ancak kesin olarak bildiğimiz bir şey var ki, teknoloji ve onu çevreleyen kurallar ve düzenlemeler gelişmeye devam edecek. Şirketler, verilerinin kazınmasına izin vermek isteyip istemediklerine ve yapay zeka sohbet botları için neyin adil oyun olarak kabul edileceğine karar vermelidir. Web scraping’i devre dışı bırakmak isteyen içerik oluşturucuların, scraping teknolojisi geliştikçe ve üretken yapay zeka pazarı genişledikçe savunmalarını güçlendirmeleri gerekecek.



siber-1