La start-up d'intelligence artificielle Anthropic accusée de récupération de données « flagrante »

Débloquez gratuitement l’Editor’s Digest

La start-up d’intelligence artificielle Anthropic a été accusée de récupérer de manière agressive des données de sites Web pour entraîner ses systèmes, violant potentiellement les conditions de service des éditeurs dans le processus, selon les personnes concernées.

Les développeurs d’IA s’appuient sur l’ingestion de vastes quantités de données provenant d’une grande variété de sources pour créer de grands modèles linguistiques, la technologie derrière les chatbots tels que ChatGPT d’OpenAI et le rival d’Anthropic, Claude.

Anthropic a été fondée par un groupe d’anciens chercheurs d’OpenAI avec la promesse de développer des systèmes d’IA « responsables ».

Cependant, Matt Barrie, le directeur général de Freelancer.com, a accusé la société basée à San Francisco d’être « de loin le scraper le plus agressif » de son portail pour les freelances, qui compte des millions de visites quotidiennes.

D’autres éditeurs Web ont fait écho aux inquiétudes de Barrie selon lesquelles Anthropic envahit leurs sites et ignore leurs instructions de cesser de collecter leur contenu pour former ses modèles.

Selon les données partagées avec le Financial Times, Freelancer.com a reçu 3,5 millions de visites en quatre heures grâce à un « robot d’indexation » lié à Anthropic. Cela fait d’Anthropic un « robot d’indexation » probablement cinq fois plus volumineux que le deuxième, a déclaré Barrie.

Les visites de son robot ont continué à augmenter même après que Freelancer.com a tenté de refuser ses demandes d’accès, en utilisant des protocoles Web standards pour guider les robots d’exploration, a-t-il ajouté. Après cela, Barrie a décidé de bloquer complètement le trafic provenant des adresses Internet d’Anthropic.

« Nous avons dû les bloquer parce qu’ils ne respectent pas les règles d’Internet », a déclaré Barrie. « C’est un scraping flagrant. [which] Cela ralentit le site pour tous ceux qui y travaillent et affecte en fin de compte nos revenus. »

Anthropic a déclaré qu’elle enquêtait sur l’affaire et qu’elle respectait les demandes des éditeurs et cherchait à ne pas être « intrusive ou perturbatrice ».

Le scraping de données accessibles au public sur le Web est généralement légal. Mais cette pratique est controversée, peut enfreindre les conditions d’utilisation des sites Web et peut coûter cher aux hébergeurs de sites.

Kyle Wiens, directeur général d’iFixit.com, a déclaré que son site de réparation électronique avait reçu 1 million de visites de robots anthropiques en l’espace de 24 heures. « Nous avons un tas d’alarmes [for high traffic]« Les gens se font réveiller à 3 heures du matin. Cela déclenche toutes les alarmes dont nous disposons », a-t-il déclaré.

Les conditions d’utilisation d’iFixit interdisent l’utilisation de ses données pour l’apprentissage automatique, a déclaré Wiens. « Mon premier message à Anthropic est le suivant : si vous utilisez cela pour entraîner votre modèle, c’est illégal. Mon deuxième message est le suivant : ce n’est pas un comportement poli sur Internet. L’exploration est une question d’étiquette. »

Les sites Web utilisent un protocole appelé « robots.txt » pour tenter d’empêcher les robots d’exploration et autres robots Web d’accéder à certaines parties de leurs sites. Cependant, ce protocole repose sur le respect volontaire des règles.

« Nous respectons le fichier robots.txt et notre robot a respecté ce signal lorsque iFixit l’a mis en œuvre », a déclaré Anthropic. L’entreprise a également déclaré que ses robots respectaient les « technologies anti-contournement » telles que les CAPTCHA, et que « notre exploration ne doit pas être intrusive ou perturbatrice. Nous visons à minimiser les perturbations en réfléchissant à la vitesse à laquelle nous explorons les mêmes domaines ».

Le scraping de données n’est pas une pratique nouvelle, mais elle a connu une accélération spectaculaire au cours des deux dernières années en raison de la course à l’intelligence artificielle. Cette pratique a entraîné de nouveaux coûts pour les sites Web.

« Les robots d’exploration de l’IA nous ont coûté beaucoup d’argent en frais de bande passante et nous ont fait passer beaucoup de temps à gérer les abus », a écrit Eric Holscher, cofondateur du site d’hébergement de documents Read the Docs dans un article de blog « Les robots d’exploration de l’IA agissent d’une manière qui n’est pas respectueuse des sites qu’ils explorent, et cela va provoquer une réaction négative contre les robots d’exploration de l’IA en général », a-t-il ajouté.

Anthropic a créé certains des chatbots les plus avancés au monde, rivalisant avec ChatGPT d’OpenAI, qui peuvent répondre à un ensemble de messages en langage naturel, tout en se positionnant comme un acteur plus éthique que certains concurrents. L’objectif déclaré d’Anthropic est « le développement et la maintenance responsables d’une IA avancée pour le bénéfice à long terme de l’humanité ».

Alors que les principales entreprises d’IA rivalisent pour créer des modèles toujours plus performants et agiles, elles s’enfoncent toujours plus profondément dans les recoins inexploités du Web, en s’associant à des éditeurs ou en créant des données de formation synthétiques.

OpenAI a conclu plusieurs accords ces derniers mois avec des éditeurs et des fournisseurs de contenu, dont Reddit, The Atlantic et The Financial Times. Anthropic n’a pas annoncé publiquement de partenariats similaires.

« Les moteurs de recherche ont toujours fait beaucoup de scraping », a déclaré Barrie, « mais cela a franchi un nouveau palier avec la formation de l’IA générative. »

La mission d’iFixit est de « donner des informations », a déclaré Wiens, pour encourager les gens à réparer eux-mêmes leurs modèles. « Nous ne sommes pas opposés à ce qu’ils utilisent notre contenu pour former des modèles, nous voulons simplement faire partie de la conversation. »

Il a ajouté : « Je ne suis pas un militant sur ce sujet, j’essaie juste de maintenir un site Web en ligne. »

ttn-fr-56

La start-up d’intelligence artificielle Anthropic accusée de récupération de données « flagrante »

Byteknomers

By teknomers

Article Similaire

Les bacs à fleurs « pas si sûrs » sur la route de Hollandscheveld disparaîtront à nouveau la semaine prochaine. Prochaine étape : rétrécissement temporaire de la route

Une mère et ses enfants sont insultés à caractère raciste dans une station de métro

KKR est sur le point de conclure un accord de 800 millions de dollars pour acquérir l’agence de relations publiques d’entreprise de WPP

Et dire qu’enfant, elle ne voulait pas entendre parler d’athlétisme…

Douwe Bob court vite à Paris, est choqué par la sensation dans ses poumons

Alerte à la station de métro Canary Wharf : des dizaines de passagers sont vus en train de courir et la police crie « sortez vite »

Meilleure influenceuse de la mode : Simone Adams

Les préparatifs pour le match de Kasımpaşa se poursuivent à Konyaspor

Test d’endurance BVB aujourd’hui dans le téléscripteur LIVE

Heili Sirviö, 13 ans, en finale de patinage ! Découvrez l’incroyable performance ici

FC Bayern : De Ligt et Cie commencent l’entraînement du Bayern – Kane est toujours porté disparu

Une toute nouvelle façon de cuisiner les œufs vous étonnera : l’avez-vous déjà essayé ?

Voici les produits les plus vendus des fast-foods : McDonalds, Hesburger, Burger King…

Ces pâtes vont vous faire exploser la langue – Essayez-les maintenant

L’Agence alimentaire a gracié les nouilles trop chaudes

Vous Avez Raté

Ed Sheeran : « Si je n’étais pas musicien, je serais toujours vierge »

Nouveau système d’incitation : Asos veut lier les bonus aux augmentations de prix

Werder Brême : Marvin Ducksch confirme l’offre de l’Arabie Saoudite

Les préparatifs pour le match de Kasımpaşa se poursuivent à Konyaspor