Les programmes informatiques parlants sont devenus largement connus il y a des années, notamment grâce au TomTom et à d’autres équipements de navigation. Le journal parle maintenant aussi.
Commencé en 2021 CNRC avec un essai où des voix de robot fournies par Microsoft récitaient un petit nombre d’articles. Désormais, toutes les pièces du CNRC peuvent être écoutées comme si elles étaient lues par les éditeurs du CNRC.
Ils ne le sont pas vraiment. Ce serait une tâche presque impossible de lire les 110 à 120 articles que le CNRC publie chaque jour.
Les voix sont synthétiques : des copies des voix de Mischa Spel, critique en chef adjoint de la culture et de la musique, et d’Egbert Kalse, rédacteur en chef économique et présentateur de podcast, développées à l’aide de l’intelligence artificielle (IA).
Au-dessus de la version en ligne de chaque article, il y a une icône de haut-parleur en haut à gauche avec les mots « Écouter » et le temps nécessaire pour écouter l’article (ce qui prend généralement deux fois plus longtemps que le temps de lecture indiqué). Le programme informatique détermine aléatoirement quel morceau est « lu », en fait : prononcé, par laquelle des deux voix.
Lorsqu’on lui demande s’il n’est pas étrange, voire un peu effrayant, que sa voix ait désormais une existence distincte d’elle-même, Spel répond : « Cela n’a pas grand-chose à voir avec vous. Quand je l’écoute maintenant, ce n’est pas comme si j’entendais ma propre voix, mais une sœur numérique. Une sœur numérique affirmée.
« Ce n’est pas un sans faute non plus. Mais la plus grande surprise pour moi », dit l’expert en musique Spel, « a été que la mélodie de la phrase est souvent assez similaire à la mienne. Mais cette sœur est plus stupide que moi, haha, parfois elle n’arrête pas de répéter les virgules d’une clause subordonnée correspondante. Sa mère, qui est aveugle, peut désormais, pour ainsi dire, faire lire quotidiennement à sa fille le journal en entier.
Chien
Son collègue Kalse dit à propos de la reconnaissabilité de sa voix de robot : « Notre chien le frappe. » N’est-il pas inquiet que, par exemple, des articles d’opinion puissent être entendus avec sa voix numérique avec lesquels il est complètement en désaccord ? « Je n’ai pas de problème avec ça. Il est toujours précisé qui est l’auteur. Les deux éditeurs ont signé un contrat avec NRC, qui stipule que les votes ne seront utilisés que pour des articles éditoriaux, et donc pas, par exemple, pour le service client ou la boutique en ligne.
« Ce qui doit encore être amélioré, ce sont les mots anglais, les citations et les sous-titres », déclare la rédactrice en chef adjointe Melle Garschagen. « Ce n’est pas encore fini. Les auditeurs ne s’attendent pas non plus à la perfection. Nous surveillons si les choses tournent mal structurellement. Plus vous apportez de modifications, plus le système apprend.
Le test précédent avec des voix synthétiques a convaincu NRC qu’il y avait suffisamment d’intérêt pour les pièces d’écoute. « Ensuite, nous nous sommes demandé : ne voulons-nous pas nos propres votes du NRC ? », dit Garschagen. Les voix standard de Microsoft peuvent être utilisées par n’importe qui, y compris McDonald’s ou de Volkskrant, par exemple.
Parce que les lecteurs plus âgés annulent parfois leurs abonnements lorsqu’ils ne peuvent plus lire correctement, l’espoir est que ces abonnés seront conservés pour le journal avec ce projet. En moyenne, 3 000 morceaux sont désormais écoutés plus des trois quarts par jour. Aussi par des lecteurs qui savent lire, mais préfèrent écouter à certains moments de la journée.
L’année dernière, NRC a demandé à tous les employés s’ils voulaient devenir la voix robotisée du journal. Plus d’une trentaine ont postulé, six ont fait un test en studio. Après une analyse technique et un test auprès des utilisateurs, les votes de Spel et Kalse ont été retenus comme votes NRC.
Les deux ont lu chacun un total de 4 000 phrases en six séances de deux heures et demie, permettant au programme d’IA d’apprendre à imiter leurs voix. C’est arrivé dans le studio de la compagnie audio Agence Whoozyspécialisée dans le soi-disant Voice branding et la création de voix IA.
« En lisant ces quatre mille phrases, un coach vocal vérifie si le ton est correct, s’il est assez fort et si la respiration est bonne », explique Maikel van der Wouden, l’un des deux fondateurs de Whoozy. « Un ingénieur du son vérifie si le signal audio entre correctement dans le système, si vous entendez des clics, un enrouement ou un zézaiement, car cela peut perturber le programme. » À partir des enregistrements pour le NRC, quatre heures de « données nettes » ont été distillées par voix, pour entraîner le programme.
Points d’exclamation
« Le modèle apprend de tous les points du fichier audio, ainsi que du texte écrit, comment vous prononcez les choses – quel est le son dans certaines phrases, ce que la ponctuation fait au son – et essaie ensuite d’imiter cela aussi étroitement que possible dans d’autres textes ». Spel et Kalse ont dû revenir une fois au studio : le programme n’était pas encore assez bon en phrases avec un point d’exclamation, ce qui oblige souvent à monter le volume. En lisant puissamment des phrases et des titres tels que « Shrink then, Schiphol! » et ‘Ne touchez pas à nos noms d’oiseaux !’ le point d’exclamation devait également obtenir un timbre NRC.