Le browser, entre outil et cible
Le navigateur évolue, passant d’une simple fenêtre vers Internet à un outil multifonctionnel capable d’interagir avec le web. Avec le mode agent de ChatGPT Atlas, OpenAI révèle que cet agent peut visualiser des pages et réaliser des actions – clics, saisies – comme le ferait un humain. La volonté est claire : optimiser les flux de travail quotidiens avec un contexte enrichi. Toutefois, cette puissance accrue rend l’agent particulièrement vulnérable aux tentatives de manipulation.
Qu’est-ce que l’injection de prompt ?
L’injection de prompt est une technique malveillante qui insère des instructions dans des contenus apparemment innocents, trompant ainsi un système d’intelligence artificielle en lui faisant croire qu’elles sont légitimes. Selon IBM, c’est un type de cyberattaque ciblant les modèles de langage, masquant des entrées nuisibles comme des requêtes valides. Les motivations varient, allant de la manipulation des réponses à des fuites d’informations, sans nécessité d’exploiter des failles logicielles classiques.
Une problématique structurelle
Le défi n’est pas magique, mais bien structurel. Les applications utilisant des modèles de langage mélangent souvent des instructions des développeurs avec des entrées utilisateurs, sans séparation stricte. Le modèle décide de ce qui doit être priorisé selon des schémas apprises, renforçant le risque que des instructions mal formulées soient prises en compte.
Complexité du contexte
Le risque s’accroît lorsqu’un agent ne traite pas un seul message, mais fait appel à des sources variées pour une même tâche. OpenAI souligne une surface d’attaque illimitée : emails, fichiers joints, invitations, documents partagés, réseaux sociaux, et pages web variées. Dans cet enchevêtrement, l’agent peut croiser des instructions douteuses avec du contenu légitime, créant un terrain fertile pour la manipulation.
Des attaques invisibles
Ce type d’attaque peut se glisser dans des flux de travail quotidiens sans éveiller de soupçons. Par exemple, un attaquant peut « infiltrer » une boîte de réception avec un email nocif. Plus tard, si un utilisateur demande une tâche anodine, l’agent peut lire ce message malveillant et agir en conséquence. Dans un cas extrême, l’agent pourrait envoyer un email de démission au lieu de rédiger une réponse automatique.
Pourquoi le blindage parfait n’existe pas
Dans le monde de la cybersécurité, il est généralement admis qu’aucun système n’est à 100 % sécurisé. OpenAI voit l’injection de prompt comme un problème persistant. Ils déclarent : « Nous nous attendons à ce que les attaquants s’adaptent. L’injection de prompts, tout comme les arnaques et l’ingénierie sociale, ne sera pas résolue définitivement. » L’objectif est donc de rendre les attaques plus coûteuses et de réduire les impacts en cas d’échec.
Meilleures pratiques et recommandations
Face à cette menace, OpenAI recommande d’utiliser l’agent sans session authentifiée lorsque cela n’est pas strictement nécessaire et de prêter une attention particulière aux demandes de confirmation pour des actions sensibles, telles que l’envoi d’emails ou la réalisation d’achats. De plus, il est conseillé de fournir des instructions claires et précises, en évitant des requêtes trop larges qui pourraient forcer l’agent à traiter d’importants volumes de données. Bien que ces pratiques ne puissent pas éliminer le risque, elles contribuent à réduire les opportunités de manipulation et à garantir le bon fonctionnement des contrôles existants.

