Pas pour la première fois, l’auteur Anja Sicking a trouvé son travail dans une base de données illégale. Son roman le plus récent et une traduction en anglais d’un livre plus ancien, ont probablement été utilisés par Meta pour la formation de l’IA Model Llama. Bien qu’elle soit payée pour cela, elle ne veut pas contribuer au développement de modèles linguistiques avec son travail. “Cela doit déterminer que chaque écrivain pour lui-même.”
Problème: ce choix ne peut pas faire d’auteurs. Meta a utilisé la bibliothèque de base de données illégale Genesis (Libgen) pour la formation de son LLAMA MODÈLE AI. Le magazine américain L’Atlantique a publié un inventaire consultable de cette base de données téléchargée par Meta. Il contient environ 7,5 millions de livres et 81 millions de publications scientifiques.
Le syndicat de l’auteur néerlandais veut maintenant savoir: combien d’auteurs néerlandais sont le travail dans la base de données? Il y a maintenant un appel en ligne pendant une semaine, plus de 360 auteurs sont signalés à l’organisation professionnelle depuis le 2 avril.
L’Association des auteurs envisage ensuite l’action du «Conseil» contre Meta avec le Conseil européen des écrivains. Un fil conducteur dans la gamme de la base de données illégale ne semble pas encore être vu: les deux auteurs auto-publiés, les livres d’éditeurs indépendants et les livres publiés au sein de grands groupes ont été trouvés dans la base de données. Pour illustrer: Etty Hilsum est là avec quatorze résultats en six langues, Lucas Rijneveld avec treize résultats en sept langues, Harry Mulisch 61 se traduit par sept langues.
Un avertissement qui L’Atlantique Places: L’inventaire est un instantané de janvier 2025, après que Meta ait fait son utilisation prouvée de la base de données. On ne peut pas dire quelle sélection du travail que la société technologique a utilisée.
‘Droit de vent’
Sicking, qui a trouvé son travail dans la base de données, bien sûr n’aime pas ses livres «volés», car le syndicat de l’auteur le formule. Mais son objection va plus loin: “Je ne suis pas en faveur des modèles de langue, parce que je pense qu’il vaut mieux que les gens pensent à ce qu’ils écrivent, plutôt que de faire en sorte que les entreprises américaines tiennent leur stylo.” Le sujet lui est cher, elle participe au groupe de travail de l’IA de l’Union de l’auteur. Maintenant que de nombreuses sociétés d’IA ont rejoint le côté Trumps, ne jurent pas avec le vent de droite ‘, cela devient d’autant plus clair, selon les malades que les entreprises “n’ont aucune idée claire sur le bien et le mal”. Mais: ils déterminent quelles histoires sont racontées à travers les modèles de langue.
Il vaut mieux que les gens eux-mêmes réfléchissent à ce qu’ils écrivent, au lieu que les entreprises américaines tiennent leur stylo
Le fait que les modèles d’IA soient formés sur de très grandes bases de données illégales est un «secret public», explique Dirk Visser, professeur de droit de la propriété intellectuelle à l’Université de Leiden. Mais qu’il y a des preuves pour cela, c’est nouveau. Mark Zuckerberg aurait donné une autorisation personnelle pour l’utilisation de la base de données avec des livres et des articles de manière illégale obtenue. Libgen est le plus grand du genre, et dans de nombreux pays, dont les Pays-Bas, l’accès au site a été suspendu.
L’achat de licences pour utiliser le travail serait trop cher et créerait également un précédent. Il semble, dit Visser, que les entreprises d’IA prennent ce risque maintenant, car elles estiment que toute rémunération ne l’emporte pas sur les bénéfices qu’il leur donne en développement et en temps. Le fait que les auteurs trouvent leur travail dans la base de données illégale Libes ne signifie pas que les travaux sont également menés sur le modèle de l’IA de Meta, explique Visser. Mais c’est «plausible».
Procès
L’affaire semble simple. Les travaux protégés par le droit d’auteur ont été utilisés sans autorisation, selon l’association des auteurs. “L’œuvre entière a été utilisée par certains auteurs, ce qui vous fait décourager”, explique Noor van der Heijden, porte-parole de l’Union de l’auteur.
Photo Bart Maat
Mais s’il s’agit d’un procès, le résultat est toujours incertain, explique le professeur Visser. La jurisprudence est manquante. La première question à laquelle il faut répondre: Meta a-t-il un accès légitime aux livres? Non, on pourrait penser. Mais, dit Visser: La base de données est illégale, mais l’utilisation de ces informations doit toujours être étiquetée illégalement. La deuxième question à laquelle il faut répondre: est-il suffisamment clair des livres utilisés que les auteurs ne veulent pas emprunter leur travail à ces fins? Si une réservation claire est placée avec un texte indiquant qu’elle ne peut pas être utilisée pour la formation de l’IA, l’auteur a une jambe sur laquelle se tenir. Mais à quel point un tel texte devrait être clair, les jugements juridiques diffèrent toujours maintenant, explique Visser.
Par exemple, un juge à Hambourg a conclu: tout ce qu’une personne peut lire doit également être en mesure de lire l’IA. À Amsterdam, le tribunal dans une autre affaire, DPG Media, Medihuis Nederland et Medihuis NRC dit à l’entreprise HowardSome: la réservation n’était pas suffisamment spécifique pour se concentrer sur les robots qui traitent les textes et ne comptent donc pas. Les éditeurs ont maintenant fait appel de cette décision. Conclusions contradictoires. Afin de déterminer comment les auteurs peuvent protéger leur travail contre l’utilisation des robots, la Cour européenne doit statuer sur la formulation d’un tel texte.
Jusqu’à ce qu’il y ait une clarté sur les réglementations, le “vol gigantesque” que le syndicat de l’auteur constatera. “C’est maintenant le Far West parce que la législation est en retard, ce qui n’est pas encore conforme à cela.”
Le syndicat de l’auteur voit la question de savoir si vous utilisez ou non les modèles linguistiques en tant qu’écrivain. Mais le syndicat n’a pas encore entendu parler d’auteurs qui ne trouvent pas l’utilisation de leur travail par Meta un problème. “Il s’agit vraiment de Jatwerk, et non: personne n’aime être volé. Les écrivains ne volent pas non plus le vôtre?”
Lire aussi
“J’ai été volé par Tech-Hem”, écrit Auke Hulst dans sa chronique.


