MICROSOFT a développé un outil d’intelligence artificielle capable de reproduire la parole humaine avec une précision déconcertante.

C’est tellement convaincant que le géant de la technologie refuse de le partager avec le public, invoquant des « risques potentiels » d’utilisation abusive.

La filiale de recherche de Microsoft a développé un générateur de synthèse vocale IA capable de reproduire les voix humaines avec une précision inquiétante

3

La filiale de recherche de Microsoft a développé un générateur de synthèse vocale IA capable de reproduire les voix humaines avec une précision inquiétanteCrédits : Getty

L’outil, baptisé VALL-E 2, est un générateur de texte en parole capable d’imiter une voix à partir de quelques secondes d’audio seulement.

Il est entraîné à reconnaître des concepts sans recevoir au préalable d’exemples de ces concepts dans un scénario appelé apprentissage zéro coup.

Le géant de la technologie affirme que VALL-E 2 est le premier du genre à atteindre la « parité humaine », ce qui signifie qu’il atteint ou dépasse les critères de ressemblance humaine.

Il succède au système original VALL-E, annoncé en janvier 2023.

Selon les développeurs de Microsoft Research, VALL-E 2 peut produire « un discours précis et naturel dans la voix exacte du locuteur d’origine, comparable aux performances humaines ».

Il peut synthétiser des phrases complexes en plus de phrases courtes.

Pour ce faire, l’outil tire parti de deux caractéristiques appelé échantillonnage sensible à la répétition et modélisation de code groupé.

L’échantillonnage prenant en compte la répétition s’attaque aux pièges des jetons répétitifs, ou des plus petites unités de données qu’un modèle de langage peut traiter – représentées ici par des mots ou des parties de mots.

Il évite les sons ou phrases récurrents pendant le processus de décodage, aidant à varier le discours du système et à le rendre plus naturel.

La modélisation de code groupé limite le nombre de jetons que le modèle traite simultanément pour générer des résultats plus rapides.

L’IA de Microsoft peut désormais cloner des voix pour qu’elles paraissent parfaitement « humaines » en quelques secondes, mais il est trop dangereux de les divulguer au public

Les chercheurs ont comparé VALL-E 2 à des échantillons audio de LibriSpeech et VCTK, deux bases de données en langue anglaise.

Ils ont également utilisé ELLA-V, un cadre d’évaluation pour la synthèse de texte en parole à zéro coup, pour déterminer dans quelle mesure VALL-E gérait des tâches plus complexes.

Le système a finalement surpassé ses concurrents « en termes de robustesse de la parole, de naturel et de similitude des locuteurs », selon un rapport du 17 juin. papier résumant les résultats.

Le système, appelé VALL-E 2, ne sera pas rendu public en raison de "risques potentiels en cas d'utilisation abusive du modèle" y compris l'usurpation de voix et l'usurpation d'identité ciblée

3

Le système, appelé VALL-E 2, ne sera pas rendu public en raison de « risques potentiels d’utilisation abusive du modèle », notamment l’usurpation de voix et l’usurpation d’identité ciblée.Crédits : Getty

Microsoft affirme que VALL-E 2 ne sera pas rendu public de sitôt, le considérant comme « un pur projet de recherche ».

« Actuellement, nous n’avons pas l’intention d’intégrer VALL-E 2 dans un produit ou d’élargir l’accès au public », a écrit la société sur son site Web.

« Cela peut comporter des risques potentiels en cas d’utilisation abusive du modèle, comme l’usurpation d’identité vocale ou l’usurpation d’identité d’un locuteur spécifique. »

Le géant de la technologie note que tout abus présumé de l’outil peut être signalé à l’aide d’un portail en ligne.

Les inquiétudes de Microsoft sont tout à fait légitimes. Rien que cette année, les experts en cybersécurité ont constaté une explosion de l’utilisation d’outils d’IA par des acteurs malveillants, notamment ceux qui reproduisent la parole.

Microsoft a été critiqué pour son déploiement d'outils d'intelligence artificielle et sa relation avec OpenAI, qui ont attiré l'attention des régulateurs antitrust

3

Microsoft a été critiqué pour son déploiement d’outils d’intelligence artificielle et sa relation avec OpenAI, qui ont attiré l’attention des régulateurs antitrustCrédits : Getty

« Vishing », un mot-valise formé à partir de « voix » et de « phishing », est un type d’attaque où les escrocs se font passer pour des amis, familleou d’autres personnes de confiance au téléphone.

L’usurpation de la voix pourrait même constituer un risque pour la sécurité nationale. En janvier, un appel automatisé utilisant la voix du président Joe Biden a exhorté les démocrates à ne pas voter lors des primaires du New Hampshire.

L’homme derrière le complot a ensuite été inculpé de suppression de votes et d’usurpation d’identité d’un candidat.

Microsoft fait l’objet d’une surveillance accrue en raison de sa mise en œuvre de l’IA, tant sur le plan de la lutte contre la concurrence que sur celui de la confidentialité des données.

Les régulateurs ont exprimé leur inquiétude concernant le partenariat de 13 milliards de dollars du géant de la technologie avec OpenAI et le contrôle qui en résulte sur la startup.

Quels sont les arguments contre l’IA ?

L’intelligence artificielle est un sujet très controversé, et il semble que tout le monde ait une position à ce sujet. Voici quelques arguments courants contre elle :

Perte d’emplois – Certains experts du secteur affirment que l’IA créera de nouvelles niches sur le marché du travail et que, à mesure que certains postes seront supprimés, d’autres apparaîtront. Cependant, de nombreux artistes et écrivains insistent sur le fait que cet argument est éthique, car les outils d’IA générative sont formés sur leur travail et ne fonctionneraient pas autrement.

Éthique – Lorsque l’IA est entraînée sur un ensemble de données, une grande partie du contenu est extrait d’Internet. Cela se fait presque toujours, voire exclusivement, sans avertir les personnes dont le travail est récupéré.

Confidentialité – Le contenu des comptes personnels sur les réseaux sociaux peut être transmis aux modèles linguistiques pour les entraîner. Des inquiétudes ont surgi lorsque Meta a dévoilé ses assistants IA sur des plateformes comme Facebook et Instagram. Des contestations judiciaires ont été formulées à ce sujet : en 2016, une législation a été créée pour protéger les données personnelles dans l’UE, et des lois similaires sont en cours d’élaboration aux États-Unis.

Désinformation – Les outils d’IA qui extraient des informations d’Internet peuvent les sortir de leur contexte ou être victimes d’hallucinations qui produisent des réponses insensées. Des outils comme Copilot sur Bing et l’IA générative de Google dans la recherche risquent toujours de se tromper. Certains critiques estiment que cela pourrait avoir des effets mortels – comme l’IA prescrivant des informations médicales erronées.

L’entreprise a également dû faire face à des critiques de la part de ses utilisateurs.

Recall, un « assistant IA » qui prend des captures d’écran d’un appareil toutes les quelques secondes, a vu sa sortie reportée indéfiniment le mois dernier.

Microsoft a fait face à un déluge de critiques de la part des consommateurs et des experts en confidentialité des données comme le Information Commissioner’s Office au Royaume-Uni.

Dans une déclaration au US Sun, un porte-parole de la société a déclaré que Recall passerait « d’une expérience d’aperçu largement disponible pour les PC Copilot+… à un aperçu disponible en premier dans le programme Windows Insider ».

Ce n’est qu’après avoir reçu les commentaires de cette communauté que Recall deviendra « disponible pour tous les PC Copilot+ », a déclaré le porte-parole.

La société a refusé de commenter si l’outil présentait un risque de sécurité.



ttn-fr-58