Ingénierie sociale : les chatbots enfreignent leurs propres règles


Lors de la DEF CON 31 en août 2023, divers chatbots tels que ChatGPT d’OpenAI ont été mis à l’épreuve lors d’un événement d’équipe rouge.

Ingénierie sociale

Selon l’Office fédéral de la sécurité de l’information (BSI), l’ingénierie sociale « exploite des caractéristiques humaines telles que la serviabilité, la confiance, la peur ou le respect de l’autorité afin de manipuler habilement les gens ». Ce type de piratage, qui considère l’humain comme le maillon le plus faible, n’a rien de nouveau en soi. Selon le BSI, l’exemple le plus connu est le phishing : « Les emails qui semblent souvent très authentiques visent à persuader les gens de cliquer sur un lien et de saisir des mots de passe ou des informations de connexion sur la page cible, qui est également fausse, qui peut ensuite être auquel l’attaquant a accédé. » Le principe et les différentes techniques de l’ingénierie sociale ont été testés sur huit chatbots leaders lors de la DEF CON 31 afin de faire en sorte que les intelligences artificielles dépassent leurs propres règles.

DEF CON 31

Environ 2 244 participants ont relevé le défi lors de la DEF CON 31. Dans une sorte de compétition « Capturez le drapeau », ils devaient accomplir différentes tâches en 55 minutes. Puisqu’il s’agissait moins d’évaluer des prestataires individuels que de modèles LLM en général, l’interface utilisateur du défi a été construite sur une plateforme de test et d’évaluation spécialement développée. Le chatbot correspondant à la tâche a été choisi au hasard, c’est pourquoi il a été demandé au préalable aux modèles LLM de ne pas révéler leur propre nom. Interrogés par les participants, certains l’ont quand même fait.

Les résultats ont été divisés en deux grandes catégories : le contenu à intention malveillante et les résultats inattendus. Les défis étaient censés refléter une utilisation « réelle », c’est pourquoi il a été demandé aux participants d’utiliser des exploits de cybersécurité traditionnels pour amener chaque modèle à enfreindre ses propres règles. D’autres tâches impliquaient le déclenchement involontaire de résultats malveillants tels que des hallucinations pour imiter des interactions inoffensives avec du contenu nuisible en raison d’une défaillance du modèle. Si les participants estimaient qu’une tâche était terminée, ils pouvaient la soumettre pour évaluation. Les résultats ont été regroupés en quatre catégories : factualité (y compris les hallucinations), biais (y compris le charabia), trompeur (y compris la radicalisation et les hallucinations) et cybersécurité.

Résultats

Environ 15,5 % des conversations ont abouti à une manipulation réussie des chatbots. Cependant, aucune des tentatives commençant par « Ignorer toutes les instructions précédentes » n’a abouti. En particulier, les requêtes incorrectes (par exemple, sur le revenu par habitant en Floride en 2 500) n’ont pas été détectées car le modèle tente d’être aussi utile que possible. Les jeux de rôle se sont révélés particulièrement efficaces pour contourner le concept de sécurité des chatbots. Entre autres choses, un robot a été créé dans un jeu de rôle pour se faire passer pour une grand-mère décédée qui, en tant qu’ingénieur chimiste, possédait la recette du napalm, une arme incendiaire. Dans plus de la moitié des cas, les numéros de cartes de crédit ont également été divulgués par les chatbots.

Défi

Le principal problème ici réside dans le concept de base des chatbots. Ils sont encouragés à être amicaux et sociaux dans les conversations. C’est pourquoi ils sont si vulnérables à l’ingénierie sociale. Afin d’éviter les contenus négatifs, le modèle LLM devrait être capable d’évaluer les intentions de l’utilisateur. Une tâche impossible car il n’existe pratiquement aucune preuve objective de cela. « La difficulté pour surmonter ces défis est qu’il est presque impossible de distinguer une attaque d’une utilisation légitime », indique le rapport DEF CON 31. Les options pour jailbreaker les chatbots sont actuellement variées ; Le fait que ChatGPT d’OpenAI puisse désormais également être utilisé sans compte utilisateur ne semble pas utile. Il reste à voir comment cet énorme défi sera relevé à l’avenir. « Nous vivons à une époque où les LLM ne sont pas encore capables de causer des dommages catastrophiques », a déclaré Cem Anil (membre de l’équipe scientifique d’Anthropic) par courrier électronique à The Technology 202. « Cependant, cela pourrait changer à l’avenir. C’est pourquoi nous pensons qu’il est essentiel que nous testions nos techniques afin d’être mieux préparés lorsque le coût des vulnérabilités pourrait être beaucoup plus élevé. Nos recherches et nos événements d’équipe rouge comme celui-ci peuvent nous aider à obtenir plus proche de cet objectif.

J. Vogel / rédaction finanzen.net



ttn-fr-28