Malgré d'importants progrès ces dernières années, les voix synthétisées comme Siri, Alexa ou Google Assistant restent facilement identifiables comme des voix artificielles. Elles sont encore coincées dans ce que l'on appelle la «vallée dérangeante», une théorie scientifique selon laquelle plus un robot ressemble à un être humain, plus ses imperfections sont troublantes.
Prenons par exemple Alexa, l'assistant vocal d'Amazon. L'intelligence artificielle parle avec une voix féminine au timbre plutôt naturel, mais elle paraît toujours réciter ce qu'elle dit sur un ton désincarné, en marquant des pauses à des endroits où une humaine parlerait de manière plus fluide.
Pour tenter de remédier à ce défaut, Amazon utilise désormais une technologie appelée NTTS, pour «Neural Text To Speech». Ce procédé permet à une IA de s’appuyer sur un réseau neural ayant appris à imiter des intonations particulières, puis à les synthétiser.
Voix déjà codifiée
Quand on active le Flash Briefing, une fonctionalité qui permet de consulter les infos du jour, Alexa lit les contenus fournis par les médias ayant créé un «skill», le nom donné aux apps de l'enceinte connectée.
Amazon a fait analyser des voix de présentatrices par l'intelligence artificielle, pour que son assistant vocal puisse lire les informations à la manière d’une journaliste professionnelle.
Le choix d’une diction typiquement journalistique pour apprendre à lire –ou plutôt dire– les informations du jour est on ne peut plus logique: la «voix de JT» est déjà très codifiée et uniformisée, quasiment robotique.
Lorsque vous demanderez, en anglais, les dernières nouvelles («Alexa, what’s the latest?»), elle vous répondra désormais en sachant quels mots accentuer, où faire des pauses, quels mots enchaîner directement, etc.
Sur les extraits audio fournis par Amazon, le résultat est bluffant. La voix est toujours plus hachée qu’une voix humaine et fait encore des erreurs de ton, mais la fluidité et les intonations ressemblent réellement à celles d'une voix de radio –surtout lorsqu'on la compare avec le même texte lu par la version basique de l'assistant vocal.
Large public potentiel
Nul ne sait si les médias pourront profiter financièrement de cette nouveauté. Ils se contentent pour l'instant de faire un pari sur l'avenir, en fournissant gratuitement du contenu sans garantie de retour sur investissement.
Reste que la pénétration d'Alexa et des enceintes concurrentes permet de s'adresser à un public potentiellement très large. Techcrunch note que 41% des foyers américains possédent aujourd'hui une enceinte connectée; Médiamétrie précise que c'est également le cas de 1,7 million de Français et Françaises.
La diction journalistique d'Alexa n'est pas parfaite, mais si cette technologie continue de se perfectionner, ce pourrait être, après la rédaction d’articles simples, un nouveau domaine dans lequel les robots pourraient totalement remplacer les journalistes.
Cette voix de présentatrice est un premier pas pour Amazon, qui souhaite qu'Alexa puisse à terme adapter sa voix à tous types de contenus et de situations: raconter une histoire à un enfant, commenter une rencontre sportive, lire un roman... L'objectif affiché par l'entreprise est clair: faire en sorte que parler à son enceinte soit aussi naturel qu'une interaction humaine.