Comment empêcher ChatGPT de voler votre contenu et votre trafic


ChatGPT et les grands modèles de langage (LLM) similaires ont ajouté encore plus de complexité au paysage toujours croissant des menaces en ligne. Les cybercriminels n’ont plus besoin de compétences avancées en codage pour exécuter des fraudes et autres attaques dommageables contre les entreprises et les clients en ligne, grâce aux robots en tant que service, aux proxys résidentiels, aux fermes CAPTCHA et à d’autres outils facilement accessibles.

Aujourd’hui, les dernières technologies qui nuisent aux résultats des entreprises sont ChatGPT.

Non seulement ChatGPT, OpenAI et d’autres LLM ont soulevé des problèmes éthiques en former leurs modèles sur des données récupérées sur Internet. Les LLM ont un impact négatif sur le trafic Web des entreprises, ce qui peut être extrêmement préjudiciable pour les entreprises.

3 risques présentés par les plugins LLM, ChatGPT et ChatGPT

Parmi les menaces que ChatGPT et les plugins ChatGPT peuvent représenter contre les entreprises en ligne, il existe trois risques clés sur lesquels nous nous concentrerons :

  1. Vol de contenu (ou republier des données sans l’autorisation de la source d’origine) peut nuire à l’autorité, au classement SEO et à la valeur perçue de votre contenu original.
  2. Trafic réduit L’accès à votre site Web ou à votre application devient problématique, car les utilisateurs obtenant des réponses directement via ChatGPT et ses plugins n’ont plus besoin de trouver ou de visiter vos pages.
  3. Violations de données, ou même la large diffusion accidentelle de données sensibles, deviennent de plus en plus probables de seconde en seconde. Toutes les données « accessibles au public » ne sont pas destinées à être redistribuées ou partagées en dehors de leur contexte d’origine, mais les scrapers ne connaissent pas la différence. Les résultats peuvent aller d’une perte d’avantage concurrentiel à de graves dommages à la réputation de votre marque.

En fonction de votre modèle commercial, votre entreprise doit envisager des moyens de refuser que vos données soient utilisées pour former des LLM.

3 industries les plus touchées

Les secteurs les plus exposés aux dommages causés par ChatGPT sont ceux dans lesquels la confidentialité des données est une préoccupation majeure, le contenu unique et la propriété intellectuelle sont des différenciateurs clés, et les publicités, les yeux et les visiteurs uniques sont une source de revenus importante. Ces industries comprennent :

  1. Commerce électronique: Les descriptions de produits et les modèles de tarification peuvent être des différenciateurs clés.
  2. Streaming, médias et publication : Il s’agit de fournir au public un contenu unique, créatif et divertissant.
  3. Petites annonces: Les revenus publicitaires au paiement par clic (PPC) peuvent être gravement affectés par une diminution du trafic sur le site Web (ainsi que par d’autres problèmes de robots tels que la fraude au clic ou des analyses de site faussées dues aux scrapers).
WEBINAIRE À VENIR

Protégez votre marque : défendez-vous contre le grattage de contenu de ChatGPT

Vous craignez que ChatGPT supprime votre contenu ? Apprenez à déjouer les robots IA, à défendre votre contenu et à sécuriser votre trafic Web.

Rejoignez la session

Comment ChatGPT obtient les données de formation

Selon un document de recherche publié par OpenAI, ChatGPT3 a été formé sur plusieurs ensembles de données :

  • Exploration commune
  • TexteWeb2
  • Livres1 et Livres2
  • Wikipédia

La plus grande quantité de données d’entraînement provient de Exploration commune, qui permet d’accéder aux informations Web via un référentiel ouvert de données d’exploration Web. Le robot d’exploration Common Crawl, également connu sous le nom de CCBotexploite Apache Nutch pour permettre aux développeurs de créer des scrapers à grande échelle.

La version la plus récente de CCBot analyse depuis Amazon AWS et s’identifie avec un agent utilisateur de « CCBot/2.0 ». Mais les entreprises qui souhaitent autoriser CCBot ne devraient pas se fier uniquement à l’agent utilisateur pour l’identifier, car de nombreux les mauvais robots usurpent leurs agents utilisateurs pour se déguiser en bons robots et éviter d’être bloqué.

Pour autoriser CCBot sur votre site Web, utilisez des attributs tels que des plages IP ou un DNS inversé. À bloc ChatGPTvotre site Web doit, au minimum, bloquer le trafic de CCBot.

3 façons de bloquer CCBot

  1. Robots.txt : Puisque CCBot respecte les fichiers robots.txt, vous pouvez le bloquer avec les lignes de code suivantes :
  2. Agent utilisateur : CCBot
    Interdire : /

  3. Blocage de l’agent utilisateur CCBot : Vous pouvez bloquer en toute sécurité un bot indésirable via l’agent utilisateur. (Non pas que, en revanche, en permettant le trafic des robots via l’agent utilisateur peut être dangereux et facilement abusé par les attaquants.)
  4. Logiciel de gestion de robots : Qu’il s’agisse de ChatGPT ou d’une base de données du Dark Web, le meilleur moyen d’empêcher les robots de supprimer vos sites Web, vos applications et vos API consiste à utiliser une protection spécialisée contre les robots qui utilise l’apprentissage automatique pour suivre l’évolution des tactiques de menace en temps réel.

Les grattoirs peuvent toujours trouver des solutions de contournement

Utilisation des LLM robots grattoirs pour recueillir des données de formation. Bien que le blocage de CCBot puisse être efficace pour bloquer les scrapers ChatGPT aujourd’hui, on ne sait pas ce que l’avenir réserve aux scrapers LLM. À l’avenir, si trop de sites Web empêchent OpenAI (par exemple) d’accéder à leur contenu, les développeurs pourraient décider de cesser de respecter le fichier robots.txt et pourraient cesser de déclarer leur identité de robot dans l’agent utilisateur.

Une autre possibilité est qu’OpenAI pourrait utiliser son partenariat avec Microsoft pour accéder aux données de grattage de Microsoft Bing, ce qui rendrait la situation plus difficile pour les propriétaires de sites Web. Les robots de Bing s’identifient comme Bingbot, mais les bloquer pourrait causer des problèmes en empêchant votre site d’être indexé sur le moteur de recherche Bing, ce qui entraînerait une diminution du nombre de visiteurs humains.

Vous pourriez rencontrer des problèmes similaires en bloquant le LLM Bard de Google (concurrent de ChatGPT). Google reste vague sur l’origine et la collecte des données publiques utilisées pour former Bard, mais il est possible que Bard soit, ou sera, formé avec les données collectées par les scrapers de Googlebot. Comme avec Bingbot, bloquer Googlebot serait probablement imprudent, ce qui aurait un impact sur la manière dont votre site Web est indexé et sur la manière dont le moteur de recherche Google génère du trafic vers votre site. Le résultat pourrait signifier une baisse importante du nombre de visiteurs.

Utiliser des plugins pour accéder aux données en direct

L’une des principales limites des modèles comme ChatGPT est le manque d’accès aux données en direct. Puisqu’il a été formé sur un ensemble de données qui s’arrête en 2021, il est incapable de fournir les informations les plus pertinentes et les plus récentes. C’est là qu’interviennent les plugins.

Plugins sont utilisés pour connecter des LLM comme ChatGPT à des outils externes et permettre aux LLM d’accéder aux données externes disponibles en ligne, qui peuvent inclure des données privées et des actualités en temps réel. Les plugins permettent également aux utilisateurs d’effectuer des actions en ligne (par exemple, réserver un vol ou commander des courses) via des appels API.

Certaines entreprises développent leurs propres plugins pour offrir aux utilisateurs une nouvelle façon d’interagir avec leur contenu/services via ChatGPT. Mais, en fonction de votre secteur d’activité, permettre aux utilisateurs d’interagir avec votre site Web via des plugins ChatGPT tiers peut signifier moins de publicités vues par vos utilisateurs, ainsi qu’une diminution du trafic vers votre site Web.

Vous remarquerez peut-être également que les utilisateurs sont moins disposés à payer pour vos fonctionnalités premium une fois que vos fonctionnalités peuvent être répliquées via des plugins ChatGPT tiers. Par exemple, un client Web non officiel interagissant avec votre site pourrait offrir des fonctionnalités premium via son interface utilisateur.

Comment identifier les demandes de plugin ChatGPT

La documentation OpenAI indique que les requêtes avec un en-tête HTTP d’agent utilisateur spécifique (avec le jeton : « ChatGPT-User ») proviennent des plugins ChatGPT. Mais la documentation ne précise pas que l’agent utilisateur divulgué est le seulement agent utilisateur qui peut être utilisé par les plugins lors des requêtes HTTP.

Par conséquent, comme les plugins ChatGPT interagissent avec des API tierces, celles-ci peuvent alors effectuer tout type de requêtes HTTP à partir de leur propre infrastructure. Le diagramme ci-dessous montre ce qui se passe lorsqu’un « Live Sport Plugin » fictif est utilisé avec ChatGPT pour obtenir une mise à jour sur un événement sportif.

Plugins ChatGPT
  1. ChatGPT déclenche le plug-in Live Sport, envoyant une requête aux points de terminaison de l’API en fonction des paramètres de l’invite utilisateur.
  2. Le plugin effectue une requête HTTP pour extraire un site Web sportif afin d’obtenir les dernières informations sur l’événement.
  3. Les informations sont ensuite transmises à l’utilisateur final via ChatGPT.

Un plugin peut en fait faire une requête à une API sportive sans avoir à gratter le site Web sportif. En effet, lorsque les requêtes sont faites directement depuis le serveur hébergeant l’API du plugin, il n’y a aucune contrainte sur l’agent utilisateur.

Comment bloquer les demandes de plugin ChatGPT

Dans un processus similaire au blocage des web scrapers de ChatGPT, vous pouvez bloquer les requêtes des plugins qui déclarent leur présence avec la sous-chaîne « ChatGPT-User » par l’agent utilisateur. Mais bloquer l’agent utilisateur pourrait également bloquer les utilisateurs de ChatGPT avec le mode « navigation » activé. Et, contrairement à ce que pourrait indiquer la documentation OpenAI, le blocage des requêtes de « ChatGPT-User » ne garantit pas que ChatGPT et ses plugins ne pourront pas accéder à vos données sous différents jetons d’agent utilisateur.

En fait, les plugins ChatGPT peuvent effectuer des requêtes directement depuis les serveurs hébergeant leurs API en utilisant n’importe quel agent utilisateur, et même en utilisant des navigateurs automatisés (sans tête). La détection des plugins qui ne déclarent pas leur identité dans l’agent utilisateur nécessite techniques avancées de détection de robots.

Déterminer vos prochaines étapes

L’obtention d’ensembles de données de haute qualité sur le contenu généré par l’homme restera d’une importance cruciale pour les LLM. À long terme, des entreprises comme OpenAI (financée en partie par Microsoft) et Google pourraient être tentées d’utiliser Bingbots et Googlebots pour créer des ensembles de données afin de former leurs LLM. Cela rendrait plus difficile pour les sites Web de simplement refuser la collecte de leurs données, car la plupart des entreprises en ligne s’appuient fortement sur Bing et Google pour indexer leur contenu et générer du trafic vers leur site.

Les sites Web contenant des données précieuses voudront soit chercher des moyens de monétiser l’utilisation de leurs données, soit se retirer de la formation sur le modèle d’IA pour éviter de perdre du trafic Web et des revenus publicitaires au profit de ChatGPT et de ses plugins. Si vous souhaitez vous désinscrire, vous aurez besoin de techniques avancées de détection des robots, telles que la prise d’empreintes digitales, la détection de proxy et l’analyse comportementale, pour arrêter les robots avant qu’ils ne puissent accéder à vos données.

Les solutions avancées de protection contre les robots et la fraude exploitent l’IA et l’apprentissage automatique (ML) pour détecter et arrêter les robots inconnus dès la première requête, protégeant ainsi votre contenu des scrapers LLM, des plugins inconnus et autres. en évolution rapide Technologies d’IA.

Note: Cet article est rédigé de manière experte et contribué par Antoine Vastel, PhD, responsable de la recherche chez DataDome.

Vous avez trouvé cet article intéressant ? Suivez-nous sur Twitter et LinkedIn pour lire plus de contenu exclusif que nous publions.





ttn-fr-57