Débloquez gratuitement Editor’s Digest
Roula Khalaf, rédactrice en chef du FT, sélectionne ses histoires préférées dans cette newsletter hebdomadaire.
OpenAI a affirmé que le New York Times avait « intentionnellement manipulé » son chatbot pour régurgiter des lignes entières des articles du journal, alors qu’il combattait un procès pour droits d’auteur du journal qui constitue une menace sur la façon dont il développe sa technologie.
La plainte, déposée juste après Noël, était « sans fondement », selon un article de blog publié lundi par la société d’intelligence artificielle, qui ajoutait que le journal ne « racontait pas toute l’histoire ».
Dans le procès intenté le 27 décembre, le média américain accuse la start-up d’intelligence artificielle et son principal bailleur de fonds Microsoft de s’être fait un « tour gratuit » en utilisant des millions d’articles pour construire sa technologie de chatbot, capable de répondre en détail aux demandes naturelles. invites linguistiques.
Le droit d’auteur est un problème de plus en plus délicat pour les sociétés d’IA telles qu’OpenAI, dont les modèles fonctionnent en ingérant d’énormes quantités de données provenant d’Internet. La poursuite, qui réclame des milliards de dollars de dommages et intérêts, affirme qu’OpenAI a profité de « l’exploitation et du détournement de la propriété intellectuelle du Times ».
Cela a été suivi par une proposition de recours collectif de la part de deux auteurs de non-fiction, qui affirment qu’OpenAI a violé leurs droits d’auteur en entraînant son grand modèle de langage sur leur travail. Des auteurs de fiction notables, dont John Grisham et Jodi Picoult, avaient déjà intenté une action en justice similaire.
Sur son blog, OpenAI affirme avoir entendu parler pour la première fois du procès du Times dans un article publié par le journal le 27 décembre. Avant cela, affirme-t-il, il avait eu des discussions productives avec l’organisation médiatique au sujet d’un partenariat et avait a expliqué que le contenu du Times « n’a pas contribué de manière significative à la formation de nos modèles existants ».
Dans son affaire de droits d’auteur, le Times a affirmé que le chatbot d’OpenAI avait régurgité des extraits entiers de ses articles – un phénomène décrit par OpenAI comme une « mémorisation par inadvertance », que l’entreprise a explicitement tenté d’éviter.
Le Times a également demandé à OpenAI de détruire toutes les données de formation et les modèles de chatbot qui avaient utilisé son matériel protégé par le droit d’auteur.
Les exemples avancés par le Times sont issus d’anciens articles publiés sur un certain nombre de sites tiers, selon OpenAI. “Il semble [the Times] des invites intentionnellement manipulées, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle.
“Nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives”, a écrit OpenAI.
OpenAI et d’autres sociétés d’IA ont fait valoir que le traitement de quantités de données accessibles au public sur Internet constitue une « utilisation équitable » protégée par la loi américaine sur le droit d’auteur.
Le conflit qui se prépare survient alors qu’OpenAI cherche à conclure une série d’accords avec d’autres agences de presse pour obtenir une licence sur leur contenu. Début décembre, la société a conclu un accord historique avec l’éditeur allemand Axel Springer, d’un montant de plusieurs dizaines de millions d’euros par an, qui pourrait servir de modèle pour de futurs rapprochements entre éditeurs et sociétés d’IA.
« Nous considérons que le procès du New York Times est sans fondement. Néanmoins, nous espérons un partenariat constructif avec le New York Times et respectons sa longue histoire », a écrit OpenAI sur le blog de lundi.
Le New York Times n’a pas immédiatement répondu à une demande de commentaire.