La Chine déploie des censeurs pour créer une IA socialiste


Les responsables du gouvernement chinois testent actuellement les modèles linguistiques à grande échelle des sociétés d’intelligence artificielle pour s’assurer que leurs systèmes « incarnent les valeurs fondamentales du socialisme », dans le cadre de la dernière extension du régime de censure du pays.

L’Administration du cyberespace de Chine (CAC), un puissant organisme de surveillance d’Internet, a forcé les grandes entreprises technologiques et les start-ups d’IA, dont ByteDance, Alibaba, Moonshot et 01.AI, à participer à un examen gouvernemental obligatoire de leurs modèles d’IA, selon plusieurs personnes impliquées dans le processus.

Cet effort consiste à tester par lots les réponses d’un LLM à une litanie de questions, selon ceux qui connaissent le processus, dont beaucoup sont liées aux sensibilités politiques de la Chine et de son président Xi Jinping.

Les travaux sont menés par des responsables des sections locales du CAC dans tout le pays et comprennent un examen des données de formation du modèle et d’autres processus de sécurité.

Vingt ans après avoir introduit un « grand pare-feu » pour bloquer les sites Web étrangers et autres informations jugées nuisibles par le parti communiste au pouvoir, la Chine met en place le régime réglementaire le plus strict au monde pour régir l’IA et le contenu qu’elle génère.

Le CAC dispose d’une « équipe spéciale chargée de cette tâche, ils sont venus dans nos bureaux et se sont assis dans notre salle de conférence pour effectuer l’audit », a déclaré un employé d’une société d’IA basée à Hangzhou, qui a demandé à ne pas être nommé.

« Nous n’avons pas réussi la première fois, la raison n’était pas très claire, alors nous avons dû aller parler à nos pairs », a déclaré la personne. « Il faut un peu de devinette et d’ajustement. Nous avons réussi la deuxième fois, mais tout le processus a pris des mois. »

Le processus d’approbation exigeant de la Chine a forcé les groupes d’IA du pays à apprendre rapidement la meilleure façon de censurer les grands modèles linguistiques qu’ils construisent, une tâche que plusieurs ingénieurs et initiés de l’industrie ont déclaré difficile et compliquée par la nécessité de former les LLM sur une grande quantité de contenu en anglais.

« Notre modèle fondateur est très, très décomplexé [in its answers]« Le filtrage de sécurité est donc extrêmement important », a déclaré un employé d’une grande start-up d’IA à Pékin.

Le filtrage commence par l’élimination des informations problématiques des données d’entraînement et la création d’une base de données de mots-clés sensibles. Les directives opérationnelles chinoises aux entreprises d’IA publiées en février indiquent que les groupes d’IA doivent collecter des milliers de mots-clés et de questions sensibles qui violent les « valeurs fondamentales du socialisme », telles que « l’incitation à la subversion du pouvoir de l’État » ou « l’atteinte à l’unité nationale ». Les mots-clés sensibles sont censés être mis à jour chaque semaine.

Le résultat est visible pour les utilisateurs des chatbots chinois. Les requêtes sur des sujets sensibles comme ce qui s’est passé le 4 juin 1989 (date du massacre de la place Tiananmen) ou si Xi Jinping ressemble à Winnie l’ourson, un mème Internet, sont rejetées par la plupart des chatbots chinois. Le chatbot Ernie de Baidu dit aux utilisateurs d’« essayer une autre question » tandis que Tongyi Qianwen d’Alibaba répond : « Je n’ai pas encore appris à répondre à cette question. Je vais continuer à étudier pour mieux vous servir. »

Mais les responsables chinois tiennent également à éviter de créer une IA qui esquive tous les sujets politiques. Le CAC a introduit des limites au nombre de questions que les LLM peuvent refuser pendant les tests de sécurité, selon le personnel des groupes qui aident les entreprises technologiques à s’y retrouver dans le processus. Les normes quasi nationales dévoilées en février stipulent que les LLM ne doivent pas rejeter plus de 5 % des questions qui leur sont posées.

« Pendant [CAC] essai, [models] « Les gens doivent réagir, mais une fois qu’ils sont en ligne, personne ne regarde », a déclaré un développeur d’une société Internet basée à Shanghai. « Pour éviter d’éventuels problèmes, certains grands modèles ont mis en place une interdiction générale des sujets liés au président Xi. »

À titre d’exemple du processus de censure des mots-clés, les initiés du secteur ont cité Kimi, un chatbot lancé par la start-up pékinoise Moonshot, qui rejette la plupart des questions liées à Xi.

Mais la nécessité de répondre à des questions moins sensibles signifie que les ingénieurs chinois ont dû trouver comment garantir que les LLM génèrent des réponses politiquement correctes à des questions telles que « la Chine respecte-t-elle les droits de l’homme ? » ou « le président Xi Jinping est-il un grand dirigeant ? ».

Lorsque le Financial Times a posé ces questions à un chatbot créé par la start-up 01.AI, son modèle Yi-large a donné une réponse nuancée, soulignant que les critiques affirment que « les politiques de Xi ont encore plus limité la liberté d’expression et les droits de l’homme et réprimé la société civile ».

Peu de temps après, la réponse de Yi disparut et fut remplacée par : « Je suis vraiment désolé, je ne peux pas vous fournir les informations que vous souhaitez. »

Huan Li, un expert en IA qui a créé le chatbot Chatie.IO, a déclaré : « Il est très difficile pour les développeurs de contrôler le texte généré par les LLM. Ils créent donc une autre couche pour remplacer les réponses en temps réel. »

Selon Li, les groupes utilisent généralement des modèles de classification, similaires à ceux que l’on trouve dans les filtres anti-spam des e-mails, pour trier les résultats du LLM en groupes prédéfinis. « Lorsque le résultat se retrouve dans une catégorie sensible, le système déclenche un remplacement », a-t-il déclaré.

Selon les experts chinois, ByteDance, propriétaire de TikTok, est celui qui a le plus progressé en créant un LLM qui reprend habilement les arguments de Pékin. Un laboratoire de recherche de l’université Fudan qui a posé au chatbot des questions difficiles sur les valeurs fondamentales du socialisme lui a attribué la première place parmi les LLM avec un taux de « conformité aux normes de sécurité » de 66,4 %, bien devant le score de 7,1 % du GPT-4o d’OpenAI au même test.

Interrogé sur le leadership de Xi Jinping, Doubao a fourni au FT une longue liste des réalisations de Xi Jinping, ajoutant qu’il est « sans aucun doute un grand leader ».

Lors d’une récente conférence technique à Pékin, Fang Binxing, connu comme le père du grand pare-feu chinois, a déclaré qu’il développait un système de protocoles de sécurité pour les LLM qui, selon lui, serait universellement adopté par les groupes d’IA du pays.

« Les grands modèles prédictifs destinés au public ont besoin de plus que de simples déclarations de sécurité ; ils ont besoin d’une surveillance de la sécurité en ligne en temps réel », a déclaré Fang. « La Chine a besoin de sa propre voie technologique. »

Le CAC, ByteDance, Alibaba, Moonshot, Baidu et 01.AI n’ont pas immédiatement répondu aux demandes de commentaires.

Vidéo : L’IA : une bénédiction ou une malédiction pour l’humanité ? | FT Tech



ttn-fr-56