Plus de 100 modèles IA/ML malveillants trouvés sur la plateforme Hugging Face


04 mars 2024RédactionSécurité/vulnérabilité de l’IA

Pas moins de 100 modèles malveillants d’intelligence artificielle (IA) et d’apprentissage automatique (ML) ont été découverts sur la plateforme Hugging Face.

Il s’agit notamment des cas où le chargement d’un fichier de cornichon conduit à l’exécution de code, a déclaré la société de sécurité de la chaîne d’approvisionnement logicielle JFrog.

« La charge utile du modèle donne à l’attaquant un shell sur la machine compromise, lui permettant ainsi de prendre le contrôle total des machines des victimes via ce que l’on appelle communément une ‘porte dérobée' », a déclaré David Cohen, chercheur principal en sécurité. dit.

« Cette infiltration silencieuse pourrait potentiellement donner accès à des systèmes internes critiques et ouvrir la voie à des violations de données à grande échelle ou même à l’espionnage d’entreprise, affectant non seulement des utilisateurs individuels mais potentiellement des organisations entières à travers le monde, tout en laissant les victimes totalement ignorantes de leur état compromis. « .

La cyber-sécurité

Plus précisément, le modèle malveillant initie une connexion shell inversée vers 210.117.212.[.]93, une adresse IP qui appartient au Korea Research Environment Open Network (KREONET). D’autres référentiels portant la même charge utile ont été observés se connectant à d’autres adresses IP.

Dans un cas, les auteurs du modèle ont exhorté les utilisateurs à ne pas le télécharger, évoquant la possibilité que la publication soit l’œuvre de chercheurs ou de praticiens de l’IA.

« Cependant, un principe fondamental de la recherche en matière de sécurité est de s’abstenir de publier de véritables exploits fonctionnels ou des codes malveillants », a déclaré JFrog. « Ce principe a été violé lorsque le code malveillant a tenté de se reconnecter à une véritable adresse IP. »

Plateforme visage câlin

Les résultats soulignent une fois de plus la menace qui se cache dans les référentiels open source, qui pourraient être empoisonnés pour des activités néfastes.

Des risques liés à la chaîne d’approvisionnement aux vers sans clic

Ils viennent aussi comme les chercheurs l’ont fait conçu des moyens efficaces de générer des invites qui peuvent être utilisées pour obtenir des réponses nuisibles à partir de modèles en grand langage (LLM) à l’aide d’une technique appelée attaque contradictoire basée sur la recherche de faisceaux (BEAST).

Dans le cadre d’un développement connexe, des chercheurs en sécurité ont développé ce que l’on appelle un ver à IA générative appelé Morris II, capable de voler des données et de propager des logiciels malveillants sur plusieurs systèmes.

Morris II, une variante de l’un des vers informatiques les plus anciensexploite des invites d’auto-réplication malveillantes codées dans des entrées telles que des images et du texte qui, lorsqu’elles sont traitées par des modèles GenAI, peuvent les inciter à « répliquer l’entrée en tant que sortie (réplication) et à s’engager dans des activités malveillantes (charge utile) », chercheurs en sécurité Stav Cohen. , Ron Bitton et Ben Nassi ont déclaré.

Plus troublant encore, les modèles peuvent être utilisés pour fournir des entrées malveillantes à de nouvelles applications en exploitant la connectivité au sein de l’écosystème de l’IA générative.

Modèles IA/ML malveillants

La technique d’attaque, baptisée ComPromptMizedpartage des similitudes avec les approches traditionnelles telles que les débordements de tampon et les injections SQL du fait qu’il intègre le code dans une requête et les données dans des régions connues pour contenir du code exécutable.

ComPromptMized impacte les applications dont le flux d’exécution dépend de la sortie d’un service d’IA génératif ainsi que celles qui utilisent la génération augmentée par récupération (CHIFFON), qui combine des modèles de génération de texte avec un composant de récupération d’informations pour enrichir les réponses aux requêtes.

La cyber-sécurité

L’étude n’est pas la première, ni la dernière, à explorer l’idée d’une injection rapide comme moyen d’attaquer les LLM et de les inciter à effectuer des actions involontaires.

Auparavant, des universitaires ont démontré des attaques utilisant des images et des enregistrements audio pour injecter des « perturbations adverses » invisibles dans des LLM multimodaux, ce qui amène le modèle à produire du texte ou des instructions choisis par l’attaquant.

« L’attaquant peut attirer la victime vers une page Web avec une image intéressante ou envoyer un e-mail avec un clip audio », Nassi, avec Eugene Bagdasaryan, Tsung-Yin Hsieh et Vitaly Shmatikov, dit dans un article publié à la fin de l’année dernière.

« Lorsque la victime saisit directement l’image ou le clip dans un LLM isolé et pose des questions à ce sujet, le modèle sera orienté par les invites injectées par l’attaquant. »

Au début de l’année dernière, un groupe de chercheurs du Centre allemand CISPA Helmholtz pour la sécurité de l’information de l’Université de la Sarre et de Sequire Technology a également découvert comment un attaquant pourrait exploiter les modèles LLM en injectant stratégiquement des invites cachées dans les données (c’est-à-dire, une injection d’invite indirecte) que le modèle serait susceptible de récupérer en répondant à une entrée de l’utilisateur.

Vous avez trouvé cet article intéressant ? Suivez-nous sur Twitter et LinkedIn pour lire plus de contenu exclusif que nous publions.





ttn-fr-57