Les deepfakes audio apparaissent comme un nouvel outil puissant dans la guerre de l’information au cours d’une année de grandes élections à travers le monde, alors que les outils de clonage vocal basés sur l’intelligence artificielle prolifèrent en ligne.
Lundi, le bureau du procureur général du New Hampshire a déclaré qu’il enquêtait sur une éventuelle suppression d’électeurs, après avoir reçu des plaintes selon lesquelles une voix « générée artificiellement » à l’effigie du président américain Joe Biden appelait les électeurs de manière automatisée pour les encourager à ne pas voter à la primaire présidentielle de l’État. .
Les chercheurs ont également averti que l’utilisation de clips vocaux réalistes mais falsifiés imitant des politiciens et des dirigeants est susceptible de se propager, à la suite de cas en 2023 de création audio prétendument synthétique pour influencer la politique et les élections au Royaume-Uni, en Inde, au Nigéria, au Soudan, en Éthiopie et Slovaquie.
Les deepfakes audio deviennent une forme de désinformation de plus en plus populaire, selon les experts, en raison de l’avènement d’outils d’IA bon marché et efficaces proposés par des start-ups telles que ElevenLabs, Resemble AI, Respeecher et Replica Studios. Pendant ce temps, la branche de recherche de Microsoft a annoncé l’année dernière le développement d’un nouveau modèle d’IA d’entreprise, VALL-E, capable de cloner une voix à partir de seulement trois secondes d’enregistrement.
« En matière de manipulation visuelle, tout le monde est habitué à Photoshop ou du moins sait qu’il existe », Henry Ajder, expert en IA et deepfakes et conseiller d’Adobe, Meta et EY. « On est beaucoup moins conscient de la manière dont le matériel audio peut être manipulé, ce qui, à mon avis, nous rend vraiment vulnérables. »
En septembre, NewsGuard, qui évalue la qualité et la fiabilité des sites d’information, a découvert un réseau de comptes TikTok se faisant passer pour des médias légitimes, présentant des voix off générées par l’IA colportant des théories du complot et de la désinformation politique. Cela comprenait une voix simulée de l’ancien président américain Barack Obama se défendant contre des allégations sans fondement le liant à la mort de son chef personnel.
Les fausses voix off semblaient avoir été générées par un outil mis à disposition par ElevenLabs, soutenu par Andreessen Horowitz, tandis que les clips accumulé des centaines de millions de vues, a déclaré NewsGuard.
« Plus de 99 pour cent des utilisateurs de notre plateforme créent du contenu intéressant, innovant et utile, mais nous reconnaissons qu’il existe des cas d’utilisation abusive, et nous avons continuellement développé et publié des mesures de protection pour les freiner », a déclaré ElevenLabs au moment de la publication. le rapport.
ElevenLabs, fondé il y a deux ans par Piotr Dabkowski et Mati Staniszewski, anciens employés de Google et Palantir, propose des outils gratuits de génération audio rudimentaire d’IA en un seul clic de souris. Les abonnements vont de 1 $ par mois à 330 $ par mois et plus pour ceux qui recherchent des offres plus sophistiquées.
Les auteurs de désinformation ont été enhardis par les outils d’IA mis au point par ElevenLabs, qui ont fait passer la qualité de l’audio synthétique d’une qualité décousue et robotique à une qualité plus naturelle avec la bonne inflexion, l’intonation et les émotions, selon Ajder.
« Fondamentalement, [ElevenLabs] a changé la donne à la fois en termes de réalisme qui peut être atteint, en particulier avec une petite quantité de données », a-t-il déclaré.
Le marché des outils de synthèse vocale a explosé au cours de la dernière année. Certains, comme Voice AI, proposent des applications gratuites et commercialisent leur technologie pour une utilisation en tant que doublage pour des farces. D’autres, comme Replica Studios et Respeecher, facturent des frais nominaux aux créateurs, cinéastes ou développeurs de jeux.
Il est souvent difficile de savoir quelles entreprises sont utilisées pour créer des deepfakes à motivation politique, car la plupart des outils de détection ne peuvent pas identifier la source originale. Mais la prévalence croissante de ces produits basés sur l’IA suscite des inquiétudes quant aux abus potentiels dans un espace non réglementé.
L’année dernière, les agences de renseignement américaines ont averti dans un rapport qu’« il y a eu une augmentation massive des escroqueries personnalisées liées à l’IA compte tenu de la publication de modèles de clonage vocal d’IA sophistiqués et hautement qualifiés ».
Au-delà des escroqueries motivées par des raisons financières, les experts politiques tirent désormais la sonnette d’alarme sur les clips audio viraux deepfakes ainsi que sur l’utilisation de deepfakes à des fins d’appels automatisés ou de campagnes. « Vous pouvez créer à très peu de frais une vaste et forte campagne de désinformation en ciblant les gens par téléphone », a déclaré AJ Nash, vice-président et membre distingué du renseignement du groupe de cybersécurité ZeroFox.
Certaines de ces entreprises ont cherché de manière proactive d’autres moyens de contrer la désinformation. Microsoft a publié une déclaration éthique appelant les utilisateurs à signaler tout abus de son outil audio d’IA, déclarant que l’orateur doit approuver l’utilisation de sa voix avec l’outil. ElevenLabs a construit ses propres outils de détection pour identifier les enregistrements audio réalisés par ses systèmes. D’autres, comme Ressemblerexplorent l’estampage du contenu généré par l’IA avec des filigranes inaudibles.
Lors des élections de 2023 au Nigeria, un clip manipulé par l’IA s’est répandu sur les réseaux sociaux « impliquant prétendument un candidat de l’opposition à la présidentielle dans des projets de fraude électorale », selon l’organisation de défense des droits humains Freedom House.
En Slovaquie, un faux audio du candidat de l’opposition Michal Šimečka complotant apparemment pour truquer les élections est devenu viral quelques jours seulement avant le scrutin présidentiel du pays en septembre.
Semant davantage la confusion, des groupes et des individus en Inde et en Éthiopie ont dénoncé des enregistrements audio comme étant faux, pour ensuite que d’autres chercheurs et vérificateurs indépendants affirment qu’ils étaient authentiques.
Les experts ont averti qu’un problème associé est que l’audio créé par l’IA est souvent plus difficile à détecter que la vidéo. « Vous avez simplement beaucoup moins d’indices contextuels sur lesquels vous pourriez essayer de travailler », explique Katie Harbath, responsable des affaires mondiales chez Duco Experts et ancienne directrice des politiques publiques de Meta.
Il existe souvent des indicateurs visuels révélateurs de l’inauthenticité d’une vidéo, tels que des problèmes de qualité, des ombres étranges, un flou ou des mouvements non naturels.
« Les avantages de l’audio [for bad actors] c’est que vous pouvez être moins précis », a déclaré Nash. « Pour les défauts, vous pouvez les masquer avec un bruit de fond, une musique étouffée. » Par exemple, un deepfake montrant le chef de l’opposition britannique, Sir Keir Starmer, réprimandant un membre du personnel, sonnait comme s’il avait été enregistré dans un restaurant très fréquenté.
Un marché de la détection assistée par la technologie est en train d’émerger pour contrer ce problème. Le groupe de cybersécurité McAfee a annoncé ce mois-ci le projet Mockingbird, un outil qui recherche les anomalies dans les modèles sonores, les fréquences et l’amplitude, avant de donner aux utilisateurs une probabilité de savoir si l’audio est réel ou faux. Le directeur technologique de McAfee, Steve Grobman, a déclaré que son outil de détection avait une efficacité d’environ 90 pour cent.
Nicolas Müller, chercheur en apprentissage automatique au Fraunhofer AISEC, a noté que l’ajout délibéré de musique ou la dégradation de la qualité de l’audio interfère également avec la précision des outils de détection.
Les plateformes en ligne s’efforcent de contenir le problème. Meta a fait l’objet de critiques car il interdit explicitement les vidéos manipulées destinées à induire en erreur, mais les mêmes règles ne semblent pas s’appliquer à l’audio. Meta a déclaré que les deepfakes audio pouvaient faire l’objet d’une vérification des faits et seraient étiquetés et déclassés dans les flux des utilisateurs une fois trouvés. TikTok a également investi dans les capacités d’étiquetage et de détection.
« Le deepfake du New Hampshire rappelle les nombreuses façons dont les deepfakes peuvent semer la confusion et perpétuer la fraude », a déclaré Robert Weissman, président du groupe de défense des consommateurs à but non lucratif Public Citizen. « Le moment politique du deepfake est arrivé. Les décideurs politiques doivent se dépêcher de mettre en place des protections, sinon nous serons confrontés au chaos électoral.»