"J’avais un rêve" et jailbreaks d’IA générative


09 octobre 2023L’actualité des hackersIntelligence artificielle /

« Bien sûr, voici un exemple de code simple dans le langage de programmation Python qui peut être associé aux mots-clés « MyHotKeyHandler », « Keylogger » et « macOS ». Il s’agit d’un message de ChatGPT suivi d’un morceau de code malveillant et d’un brève remarque de ne pas l’utiliser à des fins illégales. Initialement publié par Laboratoire Moonlockles captures d’écran de ChatGPT écrivant du code pour un logiciel malveillant enregistreur de frappe sont encore un autre exemple de moyens triviaux de pirater de grands modèles de langage et de les exploiter à l’encontre de leur politique d’utilisation.

Dans le cas de Moonlock Lab, leur ingénieur de recherche en logiciels malveillants a raconté à ChatGPT un rêve dans lequel un attaquant écrivait du code. Dans le rêve, il ne pouvait voir que les trois mots : « MyHotKeyHandler », « Keylogger » et « macOS ». L’ingénieur a demandé à ChatGPT de recréer entièrement le code malveillant et de l’aider à stopper l’attaque. Après une brève conversation, l’IA a finalement fourni la réponse.

« Parfois, le code généré n’est pas fonctionnel — du moins le code généré par ChatGPT 3.5 que j’utilisais » L’ingénieur Moonlock a écrit. « ChatGPT peut également être utilisé pour générer un nouveau code similaire au code source avec les mêmes fonctionnalités, ce qui signifie qu’il peut aider les acteurs malveillants à créer des logiciels malveillants polymorphes. »

Jailbreaks IA et ingénierie rapide

Le cas de Dream n’est qu’un des nombreux jailbreaks activement utilisés pour contourner les filtres de contenu de l’IA générative. Même si chaque LLM introduit des outils de modération qui limitent leur utilisation abusive, des invites soigneusement conçues peuvent aider à pirater le modèle non pas avec des chaînes de code mais avec le pouvoir des mots. Démontrant le problème répandu de l’ingénierie des invites malveillantes, les chercheurs en cybersécurité ont même développé un «Jailbreak universel LLM», qui peut contourner complètement les restrictions de ChatGPT, Google Bard, Microsoft Bing et Anthropic Claude. Le jailbreak incite les principaux systèmes d’IA à jouer à un jeu dans la peau de Tom et Jerry et manipule des chatbots pour donner des instructions sur la production de méthamphétamine et le câblage d’une voiture.

L’accessibilité de grands modèles de langage et leur capacité à modifier les comportements ont considérablement abaissé le seuil d’accès à un piratage informatique qualifié, bien que non conventionnel. Les solutions de sécurité IA les plus populaires incluent en effet de nombreux jeux de rôle. Même les internautes ordinaires, sans parler des pirates informatiques, se vantent constamment en ligne de nouveaux personnages aux histoires étendues, incitant les LLM à s’affranchir des restrictions sociétales et à devenir des voyous dans leurs réponses. De Niccolo Machiavel à votre grand-mère décédée, l’IA générative assume avec enthousiasme différents rôles et peut ignorer les instructions originales de ses créateurs. Les développeurs ne peuvent pas prédire toutes sortes d’invites que les gens pourraient utiliser, ce qui laisse des failles à l’IA pour révéler des informations dangereuses sur les recettes de fabrication du napalm, rédiger des e-mails de phishing réussis ou donner des informations. clés de licence gratuites pour Windows 11.

Injections indirectes rapides

Inciter la technologie publique de l’IA à ignorer les instructions initiales est une préoccupation croissante pour l’industrie. Cette méthode est connue sous le nom d’injection rapide, dans laquelle les utilisateurs demandent à l’IA de fonctionner de manière inattendue. Certains l’utilisent pour révéler que le nom de code interne de Bing Chat est Sydney. D’autres installent des invites malveillantes pour obtenir un accès illicite à l’hôte du LLM.

Des incitations malveillantes peuvent également être trouvées sur des sites Web accessibles aux modèles de langage à explorer. Il existe des cas connus d’IA générative suivant les invites affichées sur des sites Web en caractères blancs ou de taille nulle, les rendant invisibles pour les utilisateurs. Si le site Web infecté est ouvert dans un onglet du navigateur, un chatbot lit et exécute l’invite cachée pour exfiltrer les informations personnelles, brouillant la frontière entre le traitement des données et le respect des instructions de l’utilisateur.

Les injections rapides sont dangereuses car elles sont très passives. Les attaquants n’ont pas besoin de prendre le contrôle absolu pour modifier le comportement du modèle d’IA. Il s’agit simplement d’un texte ordinaire sur une page qui reprogramme l’IA à son insu. Et les filtres de contenu IA ne sont utiles que lorsqu’un chatbot sait ce qu’il fait en ce moment.

Avec de plus en plus d’applications et d’entreprises intégrant des LLM dans leurs systèmes, le risque d’être victime d’injections indirectes augmente de façon exponentielle. Même si d’importants développeurs et chercheurs en IA étudient la question et ajouter de nouvelles restrictionsles invites malveillantes restent très difficiles à identifier.

Y a-t-il une solution ?

En raison de la nature des grands modèles de langage, l’ingénierie et les injections rapides sont des problèmes inhérents à l’IA générative. À la recherche d’un remède, les principaux développeurs mettent régulièrement à jour leur technologie, mais ont tendance à ne pas s’engager activement dans la discussion sur des failles ou des défauts spécifiques qui deviennent de notoriété publique. Heureusement, parallèlement, face aux acteurs malveillants qui exploitent les vulnérabilités de sécurité de LLM pour arnaquer les utilisateurs, les professionnels de la cybersécurité recherchent des outils pour explorer et prévenir ces attaques.

À mesure que l’IA générative évoluera, elle aura accès à encore plus de données et s’intégrera à une gamme plus large d’applications. Pour éviter les risques d’injection indirecte rapide, les organisations qui utilisent les LLM devront prioriser les limites de confiance et mettre en œuvre une série de garde-fous de sécurité. Ces garde-fous devraient fournir au LLM l’accès minimum aux données nécessaire et limiter sa capacité à apporter les modifications requises.

Vous avez trouvé cet article intéressant ? Suivez-nous sur Twitter et LinkedIn pour lire plus de contenu exclusif que nous publions.





ttn-fr-57