Üretken Yapay Zeka Verilerinizi Kazıyor. Peki, Şimdi Ne Olacak?

ChatGPT ve diğer üretken yapay zeka modellerinin iki ucu keskin kılıç olduğu inkar edilemez: İş üretkenliğini ve otomasyonu artırmada büyük değer sağlasalar da, özellikle içerik ve veri gizliliği açısından ciddi riskler taşırlar. Aşağıdakileri göz önünde bulundurun: Ya tüm iş modeliniz içeriğe dayalıysa ve başarı, içeriğinizin mümkün olan maksimum sayıda “tekil ziyaretçi” için tutarlı değeri, görünürlüğü ve erişilebilirliğine bağlıysa? İçerik kazıma etrafındaki tartışmaya girin.

İçerik Çıkarmanın İyi Tarafı

İçerik (veya Web) kazıma işlemi, içeriği yakalamak ve depolamak için botları kullanır. Web kazımanın kesin faydaları vardır. Makine öğrenimi ile birlikte kullanılırsa yardımcı olabilir haber önyargısını azaltmak web sitelerinden büyük miktarda veri ve bilgi toplayarak ve içeriğin yanı sıra üslubun doğruluğunu değerlendirmek için makine öğrenimi yeteneklerinden yararlanarak.

İçerik kazıma teknikleri ayrıca bilgileri hızlı bir şekilde toplayabilir ve veri çıkarma süresini ve görevi tamamlamak için insanlara bağımlılığı azaltmak için otomasyondan yararlanarak maliyetlerden tasarruf sağlayabilir. Ancak önemli riskler de var.

İçerik Çıkarmanın Kötü Tarafı

Bu risklerden biri, küresel bir e-ticaret sitesiyle ilk çalışmaya başladığımızda belirgindi. inanılmaz bir şey bulduk Site trafiğinin %75’i bot tarafından oluşturuldu, bunların çoğu kazıma botlarıydı. Botlar, Dark Web’de satılabilecek veya sahte kimlikler oluşturmak veya yanlış bilgilendirme veya dezenformasyonu teşvik etmek gibi potansiyel olarak hain şekillerde kullanılabilecek verileri kopyaladı.

Başka bir örnek, sahte “Googlebot’lar”dır – kendilerini SEO dostu tarayıcılar olarak gizleyerek web sitelerinde, mobil uygulamalarda ve uygulama programlama arayüzlerinde (API’ler) tespit edilmekten kaçındıkları için özellikle tehlikeli olan ve önemli zararlara neden olan kazıyıcı botlardır. Web sitelerinin Google’da iyi bir sıralamaya ihtiyaç duyduğunu bilen fırsatçı tehdit aktörleri, Googlebot’lara benzeyen ancak web sitelerine, uygulamalara veya API’lere eriştikten sonra kötü amaçlı faaliyetler gerçekleştiren botlar geliştirir.

Aradaki Gri Alan

ChatGPT, internetten kazınan büyük miktarda veri üzerinde eğitilerek çok çeşitli soruları yanıtlayabilir. ChatGPT özellikle büyük ölçüde şu konularda eğitildi: Ortak TaramaWeb tarama verilerinin açık bir havuzunu üreten ve sürdüren, büyük dil modelleri (LLM’ler) için büyük miktarda bilgiye erişim sağlayan. Common Crawl meşru, kâr amacı gütmeyen bir kuruluştur. Ancak, paletli botunu (CCBot) kullanarak, ChatGPT ve diğer LLM’ler, özel olarak korunmayan herhangi bir içerik üzerinde eğitim toplayabilir ve etkinleştirebilir.

Bu etkinlik önemli konulara kapı aralıyor. Uzmanlarla röportaj yapan, bir konuyu araştıran ve bir makaleyi mükemmelleştiren bir gazeteciyi düşünün, ancak içeriği yalnızca ChatGPT tarafından atıf yapılmadan alıntılanmıştır. Bir web kazıma botu sayesinde gazetecinin sıkı çalışması artık tamamen kayboldu. Ayrıca, okuyucular artık gazetecinin makaleyi yayınladığı orijinal web sitesine tıklamıyor, bu da web sitesi trafiğinde ve dolayısıyla alan adı otoritesinde ve potansiyel olarak reklam gelirinde kayıplara yol açıyor.

Benzer şekilde, yapay zekanın rapçiyi kopyalamak için kullanıldığı son olayı düşünün. Drake’in TikTok’ta viral olan – yazmadığı ve dahil olmadığı – bir şarkıdaki ses. Bu, yasal ve telif hakkı sorularının yanı sıra yapay zeka ve müziğin geleceği hakkında daha geniş kapsamlı tartışmaları gündeme getiriyor.

Peki, bu kötü niyetli davranış örnekleri mi, yoksa daha çok etik bir tartışma veya iş operasyonu sorusu mu? Bunların çoğu, genellikle “adil kullanım” olarak değerlendirdiğimizin ötesine geçebilse de, yapay zeka inovasyonu, yasalarımızın ve düzenlemelerimizin ayak uydurabileceğinden daha hızlı ilerliyor ve bu kazıma faaliyetinin çoğunu gri alanda bir yere koyuyor. Ayrıca şirketlere nasıl ilerleyeceklerine karar vermeleri için kapıyı açık bırakıyor: içeriği engellemek mi yoksa engellememek mi?

Peki şimdi ne olacak?

ChatGPT veya diğer üretici yapay zeka araçlarının verileriniz üzerinde eğitim yapmasını istemiyorsanız atabileceğiniz ilk adım, Common Crawler botu CCBot’tan gelen trafiği engellemektir. Bu, bir kod satırıyla veya CCBot kullanıcı aracısını engelleyerek yapılabilir. Ancak, ChatGPT eklentisinden oluşturulan trafiğin bir kısmı artık insan trafiğini taklit edebilen gelişmiş robotlardan geliyor. Dolayısıyla, CCBot’u bloke etmek yeterli değildir. Ayrıca, ChatGPT gibi LLM’lerin içeriği kazımak için aynı şekilde engellenmesi o kadar kolay olmayan başka, daha gizli yöntemler kullandığını da belirtmekte fayda var.

Diğer bir seçenek de içeriği bir ödeme duvarının arkasına yerleştirmektir. Bu, kazıyıcı içerik için ödeme yapmadığı sürece kazımayı önleyecektir. Ancak bu aynı zamanda bir medya web sitesinin organik olarak alacağı görüntüleme sayısını da sınırlar ve (insan) okuyucuları rahatsız etme riskini taşır. Ancak AI teknolojik inovasyonunun inanılmaz hızıyla, bu gelecekte yeterli olacak mı?

Çok sayıda web sitesi, Web kazıyıcıların Common Crawl’a sağlanan veya ChatGPT ve benzeri araçların üzerinde çalıştığı verileri toplamasını engellemeye başlarsa, geliştiriciler, tarayıcı kimliklerini kullanıcı aracılarında paylaşmayı bırakabilir ve şirketleri tespit etmek ve engellemek için daha karmaşık ve gelişmiş teknikler kullanmaya zorlayabilir. kazıyıcılar.

Ek olarak, OpenAI ve Google gibi şirketler, Bing ve Google arama motoru kazıyıcı botlarını kullanarak yapay zeka modellerini eğitebilecek veri kümeleri oluşturmaya karar verebilir. Bu, içeriklerini dizine eklemek ve web sitelerine trafik çekmek için Bing ve Google’a güvenen çevrimiçi işletmelerin veri toplamayı devre dışı bırakmasını zorlaştıracaktır.

Yapay zekanın ve içerik kazımanın geleceğini yalnızca zaman gösterecek, ancak kesin olarak bildiğimiz bir şey var ki, teknoloji ve onu çevreleyen kurallar ve düzenlemeler gelişmeye devam edecek. Şirketler, verilerinin kazınmasına izin vermek isteyip istemediklerine ve yapay zeka sohbet botları için neyin adil oyun olarak kabul edileceğine karar vermelidir. Web scraping’i devre dışı bırakmak isteyen içerik oluşturucuların, scraping teknolojisi geliştikçe ve üretken yapay zeka pazarı genişledikçe savunmalarını güçlendirmeleri gerekecek.

siber-1

Byteknomers

İçerik Çıkarmanın İyi Tarafı

İçerik Çıkarmanın Kötü Tarafı

Aradaki Gri Alan

Peki şimdi ne olacak?

By teknomers

Benzer İçerikler

Baldur’s Gate 3 Yönetmeni, Oyun Geliştirmeyle “Biraz Çıtırlığın” Kaçınılmaz Olduğuna İnanıyor

SberAuto, bir günde hangi kullanılmış arabaların satılabileceğini söyledi

Yıldızlar Gece Gökyüzünden Neden Gizemli Bir Şekilde Kayboluyor?

Naruto X Boruto Ultimate Ninja Storm Connections Güncellemesi 1.30, Kurenai Yuhi DLC ve Daha Fazlası için Döndürüldü

Destiny 2: The Final Shape Story Fragmanı Durumu Belirliyor ve Düşmüş Bir Zavala’yı Öneriyor

Süper Mario, Sonic ve Pokemon Oyuncakları Amazon’da Büyük Fiyat İndirimi Aldı

Cherry, Xtrfy Ngale serisi yeni oyun mikrofonlarını piyasaya sürdü

Microsoft’un Copilot AI sohbet robotu Telegram’a geldi

Mikroçip tesisi kapanıyor ve bu yıl iPhone 16 Pro serisinde Face ID’nin ekran altı olmasını bekleyeceğimizi söylüyor

Apple WWDC 2024 için bir program yayınladığında heyecan artıyor

T-Mobile, fiyat değişikliğiyle ilgili mesajlarla dolup taştıktan sonra sohbet seçeneğini devre dışı bırakıyor

Çalışma, gezegenin aslında yıldız aktivitesinden kaynaklanan astronomik bir yanılsama olduğunu ortaya koyuyor

SpaceX’in Uzay Sahili için 40’ıncı lansmanı

Yeni yaklaşım, hızlandırıcının ay tozundaki süpernovalardan ipuçlarını ortaya çıkarma yeteneğini artırıyor

Günümüzün teleskoplarını kullanarak kara deliklerden gelen ‘Hawking radyasyonunu’ tespit etmek

İlginizi Çekebilir

Baldur’s Gate 3 Yönetmeni, Oyun Geliştirmeyle “Biraz Çıtırlığın” Kaçınılmaz Olduğuna İnanıyor

iPhone 16 Pro serisinin daha yüksek pil kapasiteleri hakkındaki bu söylentiye biraz şüpheyle yaklaşın

SberAuto, bir günde hangi kullanılmış arabaların satılabileceğini söyledi

Yıldızlar Gece Gökyüzünden Neden Gizemli Bir Şekilde Kayboluyor?