Restez informé avec des mises à jour gratuites
Inscrivez-vous simplement à la Intelligence artificielle myFT Digest – livré directement dans votre boîte de réception.
Les plus grandes entreprises d’intelligence artificielle sont confrontées à une vague de litiges en matière de droits d’auteur et à des accusations selon lesquelles elles extraient de manière agressive des données du Web, un problème exacerbé à mesure que les start-ups atteignent une « frontière de données » qui entrave les nouvelles avancées technologiques.
Ce mois-ci, un trio d’auteurs a poursuivi Anthropic pour « avoir volé des centaines de milliers de livres protégés par le droit d’auteur », affirmant que la start-up d’IA de San Francisco « n’a jamais demandé – et encore moins payé – une licence pour copier et exploiter l’expression protégée contenue dans les œuvres protégées par le droit d’auteur introduites dans ses modèles ».
Le recours collectif s’ajoute à une longue liste de cas de droits d’auteur en cours, dont le plus important a été intenté par le New York Times contre OpenAI et Microsoft à la fin de l’année dernière. Le Times affirme que les entreprises sont des « entreprises à but lucratif ».[ing] « de la violation massive du droit d’auteur, de l’exploitation commerciale et du détournement de la propriété intellectuelle du Times ».
Si l’affaire aboutit, les arguments de l’éditeur pourraient être étendus à d’autres entreprises qui forment des modèles d’IA sur Internet, avec la possibilité de nouvelles poursuites judiciaires.
Les entreprises d’IA ont fait des progrès significatifs au cours des 18 derniers mois, mais elles ont commencé à se heurter à ce que les experts décrivent comme une frontière de données, les obligeant à explorer des recoins toujours plus profonds du Web, à conclure des accords pour accéder à des ensembles de données privés ou à s’appuyer sur des données synthétiques.
« Il n’y a plus de repas gratuit. On ne peut plus extraire un ensemble de données à l’échelle du Web. Il faut aller l’acheter ou le produire. C’est la frontière à laquelle nous nous trouvons aujourd’hui », a déclaré Alex Ratner, cofondateur de Snorkel AI, qui crée et étiquette des ensembles de données pour les entreprises.
Anthropic, une start-up d’intelligence artificielle autoproclamée « responsable », a également été accusée par des propriétaires de sites Web d’avoir « récupéré de manière flagrante » des données Web pour entraîner ses systèmes au cours du mois dernier. Perplexity, un moteur de recherche basé sur l’intelligence artificielle qui vise à s’attaquer au monopole de Google sur les requêtes Web, a fait face à des accusations similaires.
Google lui-même a provoqué la consternation parmi les éditeurs, qui ont lutté pour empêcher l’entreprise de récupérer leurs sites pour son outil d’IA sans se retirer également des résultats de recherche.
Les start-ups d’IA sont engagées dans une course féroce à la domination dans laquelle elles ont besoin de montagnes de données de formation, ainsi que d’algorithmes de plus en plus sophistiqués et de semi-conducteurs plus puissants pour aider leurs chatbots à générer des réponses créatives et humaines.
OpenAI, la société mère de ChatGPT, et Anthropic ont levé à eux seuls plus de 20 milliards de dollars pour créer de puissants modèles d’IA génératifs, capables de répondre à des invites en langage naturel, et de conserver leur avantage sur les nouveaux entrants, notamment xAI d’Elon Musk.
Mais la concurrence entre les entreprises d’IA les a également placées dans la ligne de mire des éditeurs et des propriétaires de matériel nécessaire au développement de modèles.
L’affaire du Times vise à établir qu’OpenAI a effectivement cannibalisé son contenu et l’a reproduit de manière à « se substituer au Times et à lui voler son public ». Une résolution de cette affaire permettrait aux éditeurs de mieux comprendre la valeur de leur contenu.
En attendant, les start-ups spécialisées dans l’intelligence artificielle concluent des accords avec les éditeurs pour garantir que leurs chatbots produisent des réponses précises et actualisées. OpenAI, qui a récemment annoncé son propre produit de recherche, a conclu un accord avec Condé Nast, éditeur des magazines New Yorker et Vogue, en plus de ses partenariats avec d’autres médias, notamment The Atlantic, Time et The Financial Times. Perplexity a également signé des accords de partage des revenus avec un certain nombre d’éditeurs.
Anthropic n’a pas encore annoncé de partenariats similaires, mais en février, la start-up a embauché Tom Turvey, un vétéran de Google depuis 20 ans qui avait travaillé sur la stratégie de partenariat du géant de la recherche avec les principaux éditeurs.
Google a fait plus que toute autre entreprise pour établir un précédent quant à la façon dont fonctionnent aujourd’hui les relations entre les éditeurs et les entreprises technologiques. En 2015, l’entreprise a gagné son procès contre un groupe d’auteurs qui prétendaient que la numérisation et l’indexation de leurs œuvres constituaient une violation du fair use. La victoire reposait sur l’argument selon lequel l’utilisation du contenu par Google était « hautement transformatrice ».
L’affaire du Times contre OpenAI repose sur l’affirmation selon laquelle « il n’y a rien de ‘transformateur’ » dans la manière dont l’entreprise technologique a utilisé le contenu du groupe de presse. Un verdict constituerait un nouveau précédent pour les éditeurs. L’affaire de Google, cependant, a mis une décennie à se conclure, période pendant laquelle le moteur de recherche a établi une position dominante.