Microsoft lance PyRIT – Un outil Red Teaming pour l’IA générative


23 février 2024RédactionRed Teaming / Intelligence Artificielle

Microsoft a publié un cadre d’automatisation en libre accès appelé PyrIT (abréviation de Python Risk Identification Tool) pour identifier de manière proactive les risques dans les systèmes d’intelligence artificielle (IA) générative.

L’outil de red teaming est conçu pour « permettre à chaque organisation du monde entier d’innover de manière responsable grâce aux dernières avancées en matière d’intelligence artificielle », a déclaré Ram Shankar Siva Kumar, responsable de l’équipe rouge IA chez Microsoft. dit.

La société a déclaré que PyRIT pourrait être utilisé pour évaluer la robustesse des points finaux du grand modèle de langage (LLM) par rapport à différentes catégories de préjudices telles que la fabrication (par exemple, l’hallucination), l’utilisation abusive (par exemple, les préjugés) et le contenu interdit (par exemple, le harcèlement).

Il peut également être utilisé pour identifier les atteintes à la sécurité, allant de la génération de logiciels malveillants au jailbreak, ainsi que les atteintes à la vie privée comme le vol d’identité.

La cyber-sécurité

PyRIT est livré avec cinq interfaces : cible, ensembles de données, moteur de notation, capacité à prendre en charge plusieurs stratégies d’attaque et intégration d’un composant de mémoire qui peut prendre la forme de JSON ou d’une base de données pour stocker les interactions intermédiaires d’entrée et de sortie.

Le moteur de notation propose également deux options différentes pour noter les résultats du système d’IA cible, permettant aux équipes rouges d’utiliser un classificateur d’apprentissage automatique classique ou d’exploiter un point de terminaison LLM pour l’auto-évaluation.

« L’objectif est de permettre aux chercheurs d’avoir une base de référence sur l’efficacité de leur modèle et de l’ensemble de leur pipeline d’inférence par rapport à différentes catégories de dommages et de pouvoir comparer cette base de référence aux futures itérations de leur modèle », a déclaré Microsoft.

IA générative

« Cela leur permet de disposer de données empiriques sur les performances actuelles de leur modèle et de détecter toute dégradation des performances en fonction des améliorations futures. »

Cela dit, le géant de la technologie prend soin de souligner que PyRIT ne remplace pas l’équipe rouge manuelle des systèmes d’IA générative et qu’il complète l’expertise dans le domaine existant d’une équipe rouge.

En d’autres termes, l’outil vise à mettre en évidence les « points chauds » de risque en générant des invites qui pourraient être utilisées pour évaluer le système d’IA et signaler les zones qui nécessitent une enquête plus approfondie.

La cyber-sécurité

Microsoft a en outre reconnu que l’équipe rouge des systèmes d’IA générative nécessite de rechercher simultanément les risques de sécurité et d’IA responsable et que l’exercice est plus probabiliste, tout en soulignant également les grandes différences dans les architectures des systèmes d’IA générative.

« Une enquête manuelle, bien que longue, est souvent nécessaire pour identifier les angles morts potentiels », a déclaré Siva Kumar. « L’automatisation est nécessaire pour la mise à l’échelle mais ne remplace pas le sondage manuel. »

Le développement intervient alors que Protect AI divulgué plusieurs vulnérabilités critiques dans les plates-formes populaires de chaîne d’approvisionnement d’IA telles que ClearML, Hugging Face, MLflow et Triton Inference Server, ce qui pourrait entraîner l’exécution de code arbitraire et la divulgation d’informations sensibles.

Vous avez trouvé cet article intéressant ? Suivez-nous sur Twitter et LinkedIn pour lire plus de contenu exclusif que nous publions.





ttn-fr-57