Surmonter les barrières linguistiques, connecter les gens – Spotify s’est fixé ces nobles objectifs en introduisant sa dernière fonction. Mais la traduction vocale peut faire plus que simplement traduire. La rédactrice en chef de TECHBOOK, Natalie Wetzel, a entendu à quel point la nouvelle fonction d’IA est efficace.

Avec environ 70 000 podcasts en allemand sur Spotify, la scène locale des podcasts est assez solide. L’offre s’étend des podcasts d’actualités professionnels, aux formats de divertissement commerciaux, en passant par les enregistrements de loisirs à faible seuil et toutes les nuances intermédiaires. La variété des sujets est également grande et devient de plus en plus diversifiée. Et pourtant, un ou deux utilisateurs regardent avec curiosité les 3,5 millions de podcasts restants disponibles sur Spotify. S’il n’y avait pas la barrière de la langue. Mais Spotify a développé une solution pour précisément ce problème : la traduction vocale basée sur l’IA.

L’IA comme pont sur la barrière de la langue

Le résultat est aussi simple qu’ingénieux : l’IA traduit le podcast dans la langue cible et « clone » la voix et les habitudes orales de la personne qui parle. « À travers les cultures, les pays et les communautés, les histoires que nous partageons nous rassemblent. Et la plupart du temps, ce sont les voix des intervenants qui donnent aux histoires autant de poids que les histoires elles-mêmes. » Spotify s’ouvre sur cette formulation un peu fleurie. déclaration, dans lequel elle annonce la phase pilote de Voice Translation. Désormais, écouter votre podcast préféré (à l’origine dans une langue étrangère) dans votre propre langue maternelle – tel devrait être l’objectif un jour.

Vous trouverez ici du contenu de Twitter

Afin d’interagir avec ou d’afficher du contenu des réseaux sociaux, nous avons besoin de votre consentement.

Traduction vocale – voici comment ça marche

Dès mai 2023, Bill Simmons, fondateur du réseau de podcasts sportifs Spotify « The Ringer », révélait que le fournisseur suédois de streaming musical travaillait sur une fonction d’IA imitant les voix. Simmons a discuté de l’utilisation de voix générées par l’IA par des hébergeurs de podcasts bien connus à des fins publicitaires. Bien sûr uniquement avec leur accord. Spotify lui-même faisait encore profil bas à l’époque : « La publicité est un domaine intéressant pour de futures recherches, mais nous n’avons rien à annoncer à ce stade. » Cela a changé avec la traduction vocale désormais introduite, mais pas dans le domaine de ​publicité.

La traduction vocale de Spotify est alimentée par Whisper, un outil de transcription IA d’OpenAI. Le système de reconnaissance vocale a été formé avec des centaines de milliers de fichiers audio principalement en anglais et peut désormais traduire la parole entre les langues sélectionnées. Dans le même temps, Whisper peut transférer les caractéristiques linguistiques caractéristiques des animateurs de podcast, telles que le ton de la voix, les pauses et les mots de remplissage, dans la langue cible.

A lire aussi : Les meilleurs podcasts sur le vrai crime pour les fans de crime

Souhaitez-vous un échantillon ?

Si vous voulez vous convaincre des performances de Whisper, vous pouvez utiliser celui spécialement conçu Moyeu écoutez quelques épisodes pilotes. Depuis le 25 septembre, trois épisodes que Whisper a traduits de l’anglais vers l’espagnol peuvent être trouvés ici :

  • AOD : E256 – Dr. Mindy Pelz (15 juin 2023)
  • Podcast Lex Fridman : #390 – Yuval Noah Harari (17 juillet 2023)
  • KB : Armchair Expert avec Dax Shepard (14 août 2023)

D’autres traductions en allemand et en français suivront dans les prochains jours et semaines. Spotify indique également qu’il aimerait inclure davantage de podcasts dans la série pilote. Il s’agit notamment de « eff won with DRS » de Dax Shepard, de « The Rewachtables » de The Ringer et du nouveau podcast de Trevor Noah, l’ancien animateur du « Daily Show ». Une certaine attention portée au sport et aux questions sociales se manifeste déjà ici.

Qui peut utiliser la traduction vocale ?

La question de savoir si et comment Spotify va développer davantage la traduction vocale et la rendre accessible à un plus large éventail de producteurs de podcasts dépend en grande partie des retours reçus au cours de la phase pilote. Le fait que les épisodes traduits jusqu’à présent datent d’au moins un mois et demi suggère que Whisper ne fonctionne pas encore parfaitement. On ne sait pas non plus à quoi ressemblera exactement la collaboration avec les hôtes et quelles conditions Spotify a en tête pour l’avenir. Le recours à la traduction vocale coûte-t-il aux producteurs et si oui, combien ?

Actuellement, la règle générale est que les épisodes de podcast édités avec traduction vocale sont accessibles à tous les utilisateurs. Reste à savoir si la fonction restera accessible à tous à l’avenir, y compris à ceux disposant d’un abonnement gratuit. Spotify lui-même pourrait espérer augmenter le nombre d’utilisateurs en éliminant la barrière de la langue. Quoi qu’il en soit, la portée de certains podcasteurs est susceptible de s’étendre massivement une fois que la traduction vocale sera établie. Le fait que les revenus des podcasts commerciaux montent en flèche ne rend certainement pas le modèle moins attractif. Cependant, il faudra probablement un certain temps avant que la traduction vocale soit disponible pour tous les podcasteurs et que les utilisateurs puissent réellement écouter leurs podcasts préférés dans leur propre langue maternelle.

TECHBOOK signifie

« Personnellement, je suis partagé entre enthousiasme et scepticisme. Le concept en lui-même est génial et change la donne pour quiconque ne connaît pas ou seulement quelques langues étrangères. Je ne souhaite pas d’abord apprendre le japonais pour me plonger dans des podcasts de cuisine japonaise, ni le polonais pour obtenir des informations directement. Et même avec une excellente maîtrise de l’anglais, il peut parfois être difficile de comprendre les termes techniques que les commentateurs de la NFL crient dans le micro d’une voix craquante alors que vous êtes assis dans le métro. La traduction vocale de Spotify pourrait apporter beaucoup de soulagement aux utilisateurs individuels et aider les communautés à se connecter. Si seulement la fonctionnalité était prête.

Mais Spotify détermine encore à l’heure actuelle quels podcasts doivent être accessibles à l’échelle internationale. Et ce sont, sans surprise, de gros podcasts provenant d’hébergeurs établis. La sélection de langues est initialement limitée aux suspects habituels : anglais, espagnol, français et allemand. On ne peut qu’espérer que Spotify proposera bientôt également des traductions vers et depuis d’autres langues, y compris non européennes.
Ce qui est également intéressant, c’est à quel point les podcasts traduits peuvent être authentiques, tant sur le plan technique qu’humain. « En faisant correspondre la voix du créateur, Voice Translation permet aux auditeurs du monde entier de découvrir et de s’inspirer de nouveaux podcasteurs d’une manière plus authentique que jamais », déclare Ziad Sultan, vice-président de la personnalisation de Spotify.

J’ai écouté les traductions existantes, mais comme elles ne sont disponibles jusqu’à présent qu’en espagnol, je ne peux donner qu’un avis limité. La traduction vocale ne peut pas encore vraiment imiter parfaitement la voix des hôtes, surtout en ce qui concerne le ton exact. Cependant, les pauses, les fluctuations d’accentuation, la vitesse et la mélodie vocale semblent étonnamment proches de l’original. Surtout, l’origine artificielle des voix est à peine, voire pas du tout, audible. À cet égard, la traduction vocale a absolument du potentiel. Il ne reste plus qu’à mettre l’outil à la disposition du plus grand nombre de podcasteurs possible, le plus facilement possible. » – Natalie Wetzel



ttn-fr-35