Les Limites des Outils de Détection de Texte par IA
Les outils conçus pour détecter les textes générés par IA échouent systématiquement à analyser des œuvres littéraires majeures. Des œuvres comme le Génèse, la Constitution des États-Unis, ‘Harry Potter’, ou encore ‘Cien años de soledad’ sont erronément qualifiées de créations d’IA. Cette situation illustre une logique perverse : ce que les algorithmes identifient comme de l’écriture générée par IA est, en réalité, de la bonne écriture.
Des Jugements Absurdes
Bible Robot. Les verdicts émis par ces outils sont souvent déroutants. Par exemple, la célèbre novel de Gabriel García Márquez obtient un score de 100 % d’origine artificielle. Le Génèse et la Constitution ne sont pas mieux notés : le détecteur ZeroGPT attribue à ces textes des probabilités de 88,2 % et 96,21 % respectivement d’être de la production IA. Des expériences avec ‘Harry Potter’ ou les paroles de ‘Bohemian Rhapsody’ confirment ce schéma absurde.
Ironie de l’Écriture
Bien Mal. Ironiquement, ces outils étaient conçus pour identifier des textes d’IA, mais ils finissent par signaler ceux qui sont bien écrits. Un texte affichant une écriture soignée, une cohérence interne et un bon rythme narratif est souvent jugé moins humain. En d’autres termes, la qualité de l’écriture humaine ressemble à celle d’un modèle de langage.
Fonctionnement des Détecteurs
Comment ça Marche. Pour saisir les raisons de ces échecs, il faut comprendre le fonctionnement de ces outils. Ils se basent principalement sur deux indicateurs : la perplexité et l’explosivité. La perplexité mesure la prévisibilité du choix de mots. Plus les mots suivent un enchaînement logique, moins la perplexité est élevée. L’explosivité analyse les variations de longueur des phrases, où les humains privilégient des styles alternés.
Un Exemple Éloquent
Un texte bien écrit, avec un vocabulaire précis et une structure claire, présente une faible perplexité. Gabriel García Márquez excelle dans l’art de choisir les mots avec précision. Le Génèse possède une cadence presque hypnotique, provoquant des erreurs dans la détection de textes d’IA.
Un Entraînement Problématique
Identique mais Différent. Les modèles de génération d’IA ont été, pour la plupart, entraînés sur des écrits de qualité humaine. Des outils comme ChatGPT et Claude produisent des textes fluides et cohérents, compliquant ainsi la tâche des algorithmes pour distinguer les productions humaines des créations d’IA.
Des Biais Subtils
Autres Erreurs. Diverses études montrent que ces outils peuvent présenter des biais. Un projet a révélé que 61,22 % des essais d’étudiants non natifs en anglais sont marqués comme générés par IA. En revanche, les essais d’étudiants natifs passent sans problème.
Système de Limitation
Les étudiants non natifs sont souvent pénalisés à cause de leurs choix lexicaux plus limités et d’une structuration plus simple de leurs écrits, ce qui les rapproche des traits d’écriture des modèles IA.
Un Ajustement Intentionnel
Forçage des Résultats. Edward Tian, le PDG de GPTZero, a reconnu que de nombreux outils ajustent leurs seuils pour générer intentionnellement des faux positifs. Cela signifie qu’un texte humain peut être étiqueté à tort comme généré par IA, ce qui pose des problèmes dans la vérification des contenus.
Le Cas de ‘Shy Girl’
Une Conséquence Néfaste. Récemment, l’éditeur Hachette a annulé la publication de ‘Shy Girl’ parce qu’un algorithme a estimé qu’il avait été généré à 78 % par une IA. Bien que l’auteure nie avoir utilisé des outils d’IA, cet incident montre l’impact potentiel de ces systèmes : ils peuvent mettre en péril des carrières avant même qu’une preuve définitive ne soit établie.

