La montée inquiétante de certains mots dans la recherche académique

La présence d’articles académiques rédigés par des intelligences artificielles (IA) est un sujet qui a secoué le monde académique. Pour évaluer l’ampleur de cette pratique, une étude récente a analysé des millions de résumés de publications de PubMed. Les résultats ont révélé une tendance inquiétante : un mot en particulier est devenu la coqueluche des IA, et les raisons de ce phénomène soulèvent des questions cruciales.

Le mot en question : “Delve”

Le terme “delve”, qui se traduit par “profondiser”, a connu un essor spectaculaire, multipliant son utilisation par 28 entre 2022 et 2024, coïncidant avec l’émergence de ChatGPT et d’autres modèles de langage. D’autres mots comme “underscore” (souligner) et “showcasing” (exposer) ont également vu leur fréquence d’utilisation augmenter de manière significative, respectivement par 13,8 et 10,7. Ces termes sont moins liés au contenu que à un style d’écriture, très typique du langage utilisé par les modèles de langage d’IA.

Un style d’écriture en danger

La question se pose alors : la présence d’un de ces termes dans un article indique-t-elle qu’il a été rédigé par une IA ? Pas nécessairement, mais l’augmentation est alarmante. Comparé à des mots clés ayant connu des pics d’usage, comme “pandémie,” l’essor du mot “delve” est sans précédent. Cela soulève des interrogations sur l’intégrité du langage utilisé dans les publications académiques.

L’influence humaine dans la création d’IA

Un processus affiné par l’humain

Dans le développement de chatbots comme ChatGPT, il existe une étape essentielle qui implique une intervention humaine : l’apprentissage par renforcement via le retour d’expérience humaine (RLHF). La majorité des travailleurs chargés de peaufiner ces réponses se situent dans des pays d’Afrique, tels que le Nigeria, où l’utilisation de ce genre de vocabulaire en anglais formel est courante. Cela pose d’importantes questions sur la provenance et l’authenticité du langage généré par l’IA.

Un style propre à l’anglais africain

Le mot “delve” est fréquemment utilisé dans le contexte des affaires en Afrique, et d’autres termes comme “leverage”, “explore”, ou “tapestry” y sont également populaires. Selon des études, bien que le retour humain soit minime par rapport aux données massives d’entraînement, son influence est suffisamment forte pour définir le ton et le choix des mots du modèle de langage.

Les défis de l’étiquetage des données

L’étiquetage de données est une étape cruciale pour le développement de modèles de langage performants. Malheureusement, la plupart des personnes impliquées dans ce processus proviennent de pays en développement comme le Nigeria ou l’Inde. Ces travailleurs sont souvent confrontés à des journées de travail épuisantes et à des rémunérations dérisoires, tout en devant traiter des contenus parfois violents, sans aucun soutien psychologique.

Dans l’optique d’un avenir où l’intégrité de la recherche ne sera pas compromise par des biais linguistiques ou des influences inappropriées, il est primordial de se pencher sur le rôle crucial des données et de l’humain dans l’entraînement des intelligences artificielles.

En somme, la montée d’un vocabulaire particulier dans les publications académiques ne fait pas que refléter une tendance linguistique ; elle met en lumière un ensemble de défis sociétaux, économiques et éthiques qui nécessitent une attention urgente.



F1-ES