La voracité des bots : un problème émergent

Les modèles d’intelligence artificielle (IA) s’accaparent le contenu d’internet de manière industrielle. Pour s’entraîner, ces modèles nécessitent l’utilisation de bots rastreadores, tels que GPTBot pour OpenAI, Googlebot pour Gemini, ou ClaudeBot pour Anthropic. Ces bots parcourent des millions de pages web, téléchargent le code HTML, extraient le texte brut et stockent des liens, créant ainsi une véritable chasse à l’information, nommée scraping.

Les implications juridiques

Cette dynamique soulève des problèmes notables, notamment en matière de propriété intellectuelle. Des cas récents, tels que la polémique autour des images générées par ChatGPT dans le style du Studio Ghibli, illustrent l’ampleur de cette question. En trois ans, des litiges liés aux droits d’auteur ont explosé, comme en témoigne la demande du New York Times contre Microsoft et OpenAI, accusant l’utilisation illégale de millions d’articles pour entraîner ChatGPT.

Accords et réglementations

Face à de telles accusations, certaines entreprises, comme Anthropic, ont dû trouver des solutions coûteuses, allant jusqu’à payer 1,5 milliard de dollars pour un accord de règlement. Cela souligne la nécessité pour les entreprises d’IA de licencier du contenu, avec des accords de plusieurs millions de dollars entre OpenAI et des groupes comme News Corp et Associated Press.

Conséquences pour les sites web

En outre, l’extraction de contenu par les bots entraîne une diminution du trafic pour les sites web concernés. Si les utilisateurs obtiennent des informations via une IA, ils sont moins enclins à visiter les sites originaux, privant ainsi leurs propriétaires de revenus potentiels.

La saturation des serveurs

Les bots peuvent aussi causer des incidents techniques. Par exemple, Anthropic a généré un million de visites sur un site en une seule journée. Cela alourdit les coûts de serveurs pour les exploitants de sites et peut dégrader l’expérience utilisateur.

Vers un système de licences : le RSL Collective

Pour faire face à ces défis, le RSL Collective a été créé, avec l’intention de permettre aux sites web de contrôler l’accès de ces bots à leur contenu via un standard ouvert, le RSL (Really Simple Licensing). Ce système permet aux propriétaires de déterminer quels contenus peuvent être utilisés gratuitement et lesquels nécessitent une compensation.

Une alternative viable : payer pour le contenu

Des entreprises comme OpenAI envisagent sérieusement de passer à un modèle où elles paieraient pour le contenu qu’elles utilisent. Cela pourrait réduire considérablement les frais de litiges et les coûts informatiques et améliorer la qualité des réponses IA. Le modèle présenté par Doug Leeds, comparé à Spotify, propose une approche où les entreprises paieraient une redevance globale, redistribuée ensuite aux créateurs de contenu.

Conclusion : l’avenir de l’information en ligne

Dans un internet de plus en plus dominé par des bots, il est crucial de trouver un équilibre entre l’usage des données et le respect des droits des créateurs. Sans cela, les risques d’un contenu appauvri et d’une baisse de la qualité de l’information verront le jour. Ainsi, les discussions autour des modèles de rémunération et des accès aux contenus sont plus essentielles que jamais.



F1-ES