Débloquez gratuitement l’Editor’s Digest

La start-up d’intelligence artificielle Anthropic a été accusée de récupérer de manière agressive des données de sites Web pour entraîner ses systèmes, violant potentiellement les conditions de service des éditeurs dans le processus, selon les personnes concernées.

Les développeurs d’IA s’appuient sur l’ingestion de vastes quantités de données provenant d’une grande variété de sources pour créer de grands modèles linguistiques, la technologie derrière les chatbots tels que ChatGPT d’OpenAI et le rival d’Anthropic, Claude.

Anthropic a été fondée par un groupe d’anciens chercheurs d’OpenAI avec la promesse de développer des systèmes d’IA « responsables ».

Cependant, Matt Barrie, le directeur général de Freelancer.com, a accusé la société basée à San Francisco d’être « de loin le scraper le plus agressif » de son portail pour les freelances, qui compte des millions de visites quotidiennes.

D’autres éditeurs Web ont fait écho aux inquiétudes de Barrie selon lesquelles Anthropic envahit leurs sites et ignore leurs instructions de cesser de collecter leur contenu pour former ses modèles.

Selon les données partagées avec le Financial Times, Freelancer.com a reçu 3,5 millions de visites en quatre heures grâce à un « robot d’indexation » lié à Anthropic. Cela fait d’Anthropic un « robot d’indexation » probablement cinq fois plus volumineux que le deuxième, a déclaré Barrie.

Les visites de son robot ont continué à augmenter même après que Freelancer.com a tenté de refuser ses demandes d’accès, en utilisant des protocoles Web standards pour guider les robots d’exploration, a-t-il ajouté. Après cela, Barrie a décidé de bloquer complètement le trafic provenant des adresses Internet d’Anthropic.

« Nous avons dû les bloquer parce qu’ils ne respectent pas les règles d’Internet », a déclaré Barrie. « C’est un scraping flagrant. [which] Cela ralentit le site pour tous ceux qui y travaillent et affecte en fin de compte nos revenus. »

Anthropic a déclaré qu’elle enquêtait sur l’affaire et qu’elle respectait les demandes des éditeurs et cherchait à ne pas être « intrusive ou perturbatrice ».

Le scraping de données accessibles au public sur le Web est généralement légal. Mais cette pratique est controversée, peut enfreindre les conditions d’utilisation des sites Web et peut coûter cher aux hébergeurs de sites.

Kyle Wiens, directeur général d’iFixit.com, a déclaré que son site de réparation électronique avait reçu 1 million de visites de robots anthropiques en l’espace de 24 heures. « Nous avons un tas d’alarmes [for high traffic]« Les gens se font réveiller à 3 heures du matin. Cela déclenche toutes les alarmes dont nous disposons », a-t-il déclaré.

Les conditions d’utilisation d’iFixit interdisent l’utilisation de ses données pour l’apprentissage automatique, a déclaré Wiens. « Mon premier message à Anthropic est le suivant : si vous utilisez cela pour entraîner votre modèle, c’est illégal. Mon deuxième message est le suivant : ce n’est pas un comportement poli sur Internet. L’exploration est une question d’étiquette. »

Les sites Web utilisent un protocole appelé « robots.txt » pour tenter d’empêcher les robots d’exploration et autres robots Web d’accéder à certaines parties de leurs sites. Cependant, ce protocole repose sur le respect volontaire des règles.

« Nous respectons le fichier robots.txt et notre robot a respecté ce signal lorsque iFixit l’a mis en œuvre », a déclaré Anthropic. L’entreprise a également déclaré que ses robots respectaient les « technologies anti-contournement » telles que les CAPTCHA, et que « notre exploration ne doit pas être intrusive ou perturbatrice. Nous visons à minimiser les perturbations en réfléchissant à la vitesse à laquelle nous explorons les mêmes domaines ».

Le scraping de données n’est pas une pratique nouvelle, mais elle a connu une accélération spectaculaire au cours des deux dernières années en raison de la course à l’intelligence artificielle. Cette pratique a entraîné de nouveaux coûts pour les sites Web.

« Les robots d’exploration de l’IA nous ont coûté beaucoup d’argent en frais de bande passante et nous ont fait passer beaucoup de temps à gérer les abus », a écrit Eric Holscher, cofondateur du site d’hébergement de documents Read the Docs dans un article de blog « Les robots d’exploration de l’IA agissent d’une manière qui n’est pas respectueuse des sites qu’ils explorent, et cela va provoquer une réaction négative contre les robots d’exploration de l’IA en général », a-t-il ajouté.

Anthropic a créé certains des chatbots les plus avancés au monde, rivalisant avec ChatGPT d’OpenAI, qui peuvent répondre à un ensemble de messages en langage naturel, tout en se positionnant comme un acteur plus éthique que certains concurrents. L’objectif déclaré d’Anthropic est « le développement et la maintenance responsables d’une IA avancée pour le bénéfice à long terme de l’humanité ».

Alors que les principales entreprises d’IA rivalisent pour créer des modèles toujours plus performants et agiles, elles s’enfoncent toujours plus profondément dans les recoins inexploités du Web, en s’associant à des éditeurs ou en créant des données de formation synthétiques.

OpenAI a conclu plusieurs accords ces derniers mois avec des éditeurs et des fournisseurs de contenu, dont Reddit, The Atlantic et The Financial Times. Anthropic n’a pas annoncé publiquement de partenariats similaires.

« Les moteurs de recherche ont toujours fait beaucoup de scraping », a déclaré Barrie, « mais cela a franchi un nouveau palier avec la formation de l’IA générative. »

La mission d’iFixit est de « donner des informations », a déclaré Wiens, pour encourager les gens à réparer eux-mêmes leurs modèles. « Nous ne sommes pas opposés à ce qu’ils utilisent notre contenu pour former des modèles, nous voulons simplement faire partie de la conversation. »

Il a ajouté : « Je ne suis pas un militant sur ce sujet, j’essaie juste de maintenir un site Web en ligne. »



ttn-fr-56