Büyük bir trafik kaynağının, web’i tararken ve büyük dil modellerini (LLM’ler) eğitmek için büyük miktarda veriyi silip süpürürken giderek daha fazla inceleme altında olan AI tarayıcıları olduğu belirtildi. Büyük bir endişe, genellikle arama motorlarından gelen ve kim oldukları konusunda şeffaf olan “doğrulanmış” iyi botların (GoogleBot, GPTBot, Qualys ve BingBot gibi) aksine, bazılarının almamaları gerektiği halde bile veri almasıdır. .
Cloudflare, hangilerinin en agresif olduğunu, hangilerinin en yüksek istek hacmine sahip olduğunu ve hangilerinin düzenli olarak tarama gerçekleştirdiğini belirlemek için AI bot trafiğini izler. Araştırmacılar, yıl boyunca en fazla trafiğin (%27,16) “facebookexternalhit”ten kaynaklandığını buldu. aşırı trafik — onu %23,35 ile Bytespider (TikTok’un sahibi ByteDance’den), Amazonbot (%13,34), Anthropic’ten ClaudeBot (%8,06) ve GPTBot (%5,60) takip ediyor.
İlginç bir şekilde, Bytespider trafiği yıl içinde kademeli olarak düşüş gösterdi ve yılın başına göre yaklaşık %80 ila %85 daha düşük bir seviyede sona erdi; Anthropic’in ClaudeBot trafiği ise yıl ortasında bir artış gördü, ardından sabitleşti. GPTBot trafiği ise 2024 yılı boyunca oldukça tutarlı kaldı.


