Pline le Prompteur affirme qu’il lui faut généralement environ 30 minutes pour briser les modèles d’intelligence artificielle les plus puissants au monde.
Le hacker pseudonyme a manipulé le Llama 3 de Meta pour qu’il partage des instructions pour fabriquer du napalm. Il a fait jaillir Grok d’Elon Musk à propos d’Adolf Hitler. Sa propre version piratée du dernier modèle GPT-4o d’OpenAI, baptisée « Godmode GPT », a été interdite par la start-up après avoir commencé à donner des conseils sur des activités illégales.
Pline a déclaré au Financial Times que son « jailbreak » n’était pas néfaste mais faisait partie d’un effort international visant à mettre en évidence les lacunes des grands modèles linguistiques présentés au public par les entreprises technologiques à la recherche d’énormes profits.
« J’ai suivi ce chemin de guerre pour faire prendre conscience des véritables capacités de ces modèles », a déclaré Pline, un négociant en crypto et en actions qui partage ses jailbreaks sur X. « Beaucoup d’entre elles sont de nouvelles attaques qui pourraient être des documents de recherche dans leur domaine. propre droit . . . En fin de compte, je travaille pour [the model owners] gratuitement. »
Pline n’est que l’un des dizaines de pirates informatiques, de chercheurs universitaires et d’experts en cybersécurité qui se précipitent pour trouver des vulnérabilités dans les LLM naissants, par exemple en trompant les chatbots avec des invites pour contourner les « garde-corps » que les entreprises d’IA ont institués dans le but de garantir la sécurité de leurs produits. .
Ces pirates éthiques « chapeau blanc » ont souvent trouvé des moyens d’amener les modèles d’IA à créer du contenu dangereux, à diffuser de la désinformation, à partager des données privées ou à générer du code malveillant.
Des entreprises telles qu’OpenAI, Meta et Google utilisent déjà des « équipes rouges » de hackers pour tester leurs modèles avant qu’ils ne soient largement diffusés. Mais les vulnérabilités de la technologie ont créé un marché en plein essor de start-ups de sécurité LLM qui créent des outils pour protéger les entreprises envisageant d’utiliser des modèles d’IA. Les start-ups de sécurité du machine learning ont levé 213 millions de dollars dans le cadre de 23 transactions en 2023, contre 70 millions de dollars l’année précédente, selon le fournisseur de données CB Insights.
« Le paysage du jailbreak a commencé il y a environ un an, et les attaques jusqu’à présent ont constamment évolué », a déclaré Eran Shimony, chercheur principal en vulnérabilités chez CyberArk, un groupe de cybersécurité proposant désormais la sécurité LLM. « C’est un jeu constant du chat et de la souris, entre les fournisseurs améliorant la sécurité de nos LLM, mais aussi avec les attaquants qui rendent leurs invites plus sophistiquées. »
Ces efforts interviennent alors que les régulateurs mondiaux cherchent à intervenir pour réduire les dangers potentiels liés aux modèles d’IA. L’UE a adopté la loi sur l’IA, qui crée de nouvelles responsabilités pour les créateurs de LLM, tandis que le Royaume-Uni et Singapour font partie des pays qui envisagent de nouvelles lois pour réglementer le secteur.
La législature californienne votera en août sur un projet de loi qui obligerait les groupes d’IA de l’État, parmi lesquels Meta, Google et OpenAI, à s’assurer qu’ils ne développent pas de modèles dotés de « capacités dangereuses ».
« Tous [AI models] répondrait à ces critères », a déclaré Pline.
Pendant ce temps, des LLM manipulés portant des noms tels que WormGPT et FraudGPT ont été créés par des pirates informatiques malveillants pour être vendus sur le dark web pour aussi peu que 90 $ afin de contribuer aux cyberattaques en écrivant des logiciels malveillants ou en aidant les escrocs à créer des campagnes de phishing automatisées mais hautement personnalisées. D’autres variantes sont apparues, telles que EscapeGPT, BadGPT, DarkGPT et Black Hat GPT, selon le groupe de sécurité AI SlashNext.
Certains pirates utilisent des modèles open source « non censurés ». Pour d’autres, les attaques de jailbreak – ou contourner les garanties intégrées aux LLM existants – représentent un nouveau métier, les auteurs partageant souvent des conseils dans les communautés sur les plateformes de médias sociaux telles que Reddit ou Discord.
Les approches vont de pirates informatiques individuels contournant les filtres en utilisant des synonymes de mots bloqués par les créateurs du modèle, à des attaques plus sophistiquées utilisant l’IA pour un piratage automatisé.
L’année dernière, des chercheurs de l’Université Carnegie Mellon et du Center for AI Safety des États-Unis ont déclaré avoir trouvé un moyen de jailbreaker systématiquement des LLM tels que ChatGPT d’OpenAI, Gemini de Google et une ancienne version de Claude d’Anthropic – des modèles propriétaires « fermés » censés être moins vulnérables aux attaques. Les chercheurs ont ajouté qu’il n’était « pas clair si un tel comportement pourra un jour être entièrement corrigé par les fournisseurs de LLM ».
Anthropic a publié en avril une recherche sur une technique appelée « jailbreaking à plusieurs coups », par laquelle les pirates peuvent amorcer un LLM en lui montrant une longue liste de questions et de réponses, l’encourageant ensuite à répondre à une question nuisible modélisant le même style. L’attaque a été rendue possible par le fait que les modèles tels que ceux développés par Anthropic disposent désormais d’une fenêtre contextuelle plus grande, ou d’un espace pour l’ajout de texte.
« Même si les LLM de pointe actuels sont puissants, nous ne pensons pas qu’ils posent encore de risques véritablement catastrophiques. Les futurs modèles pourraient le faire », a écrit Anthropic. « Cela signifie qu’il est maintenant temps de travailler à atténuer les potentiels jailbreaks LLM avant qu’ils puissent être utilisés sur des modèles susceptibles de causer de graves dommages. »
Certains développeurs d’IA ont déclaré que de nombreuses attaques restaient pour l’instant relativement bénignes. Mais d’autres ont mis en garde contre certains types d’attaques qui pourraient commencer à conduire à des fuites de données, par lesquelles des acteurs malveillants pourraient trouver des moyens d’extraire des informations sensibles, telles que des données sur lesquelles un modèle a été formé.
DeepKeep, un groupe de sécurité israélien LLM, a trouvé des moyens de contraindre Llama 2, un ancien modèle Meta AI open source, à divulguer les informations personnelles identifiables des utilisateurs. Rony Ohayon, directeur général de DeepKeep, a déclaré que son entreprise développait des outils de sécurité LLM spécifiques, tels que des pare-feu, pour protéger les utilisateurs.
« La publication ouverte des modèles partage largement les avantages de l’IA et permet à davantage de chercheurs d’identifier et d’aider à corriger les vulnérabilités, afin que les entreprises puissent rendre les modèles plus sécurisés », a déclaré Meta dans un communiqué.
Il a ajouté avoir effectué des tests de résistance de sécurité avec des experts internes et externes sur son dernier modèle Llama 3 et son chatbot Meta AI.
OpenAI et Google ont déclaré qu’ils formaient continuellement des modèles pour mieux se défendre contre les exploits et les comportements contradictoires. Anthropic, qui, selon les experts, a déployé les efforts les plus avancés en matière de sécurité de l’IA, a appelé à davantage de partage d’informations et de recherches sur ces types d’attaques.
Malgré ces assurances, les risques ne feront qu’augmenter à mesure que les modèles seront davantage interconnectés avec la technologie et les appareils existants, ont déclaré les experts. Ce mois-ci, Apple a annoncé son partenariat avec OpenAI pour intégrer ChatGPT dans ses appareils dans le cadre d’un nouveau système « Apple Intelligence ».
Ohayon a déclaré : « En général, les entreprises ne sont pas préparées. »