Comment vendre au grand public le métavers, un univers numérique interconnecté dans lequel le monde entier pourrait interagir à l'aide de la réalité virtuelle? Pour Facebook, qui s'est renommé Meta en octobre 2021 et voit dans le métavers le futur d'internet, l'adoption de cette technologie pourrait bien passer par un traducteur universel.
Pour cela, Meta a créé une intelligence artificielle qui serait capable de traduire 200 langues différentes. Pour comparaison, en mai 2022, Google, se félicitait d'avoir ajouté 24 nouvelles langues à Google Translate, le logiciel de traduction le plus utilisé au monde, portant le total à 133.
Comme l'explique Meta, des millions de locuteurs n'ont pas accès à des logiciels de traduction, car leur langue est tout simplement trop rare pour qu'un algorithme soit capable de la traduire efficacement.
Pour une intelligence artificielle, la rareté d'une langue ne correspond pas à son nombre de locuteurs, mais à la quantité de textes traduits disponibles. Ces traductions préexistantes servent de base à l'algorithme, afin de bâtir sa compréhension de la langue.
Lorsque moins d'un million de ces sources sont disponibles dans une langue donnée, elle est considérée comme low-resources, et les logiciels ont plus de difficulté à s'entraîner dessus. Parvenir à 200 langues est donc un exploit.
44% plus performante que les IA précédentes
Afin de tester son exactitude, le logiciel de Meta traduit 3.001 phrases, qui ont été préalablement traduites de l'anglais au reste des langues testées par des traducteurs humains dont c'est la langue maternelle. Les deux traductions sont ensuite comparées pour mesurer la précision de la machine –en lui attribuant un score «BLEU » (pour BiLingual Evaluation Understudy)– et en corriger les éventuelles erreurs.
Meta affirme que son IA est ainsi parvenue à améliorer de 44% en moyenne les scores des algorithmes similaires. S'il admettent que ces résultats sont impressionnants, les scientifiques derrière des projets concurrents tiennent, auprès de The Verge, à les nuancer.
«Le score BLEU est dépendant de la qualité du set de comparaison», explique notamment Christian Federmann, ingénieur chez Microsoft. Il n'est donc que le point de départ de l'analyse de la qualité d'une traduction. Meta dit avoir conscience de ces limites.
Les chercheurs notent par ailleurs que parmi les quarante-quatre locuteurs natifs de langues rares ayant participé aux tests, la majorité sont des immigrés en Europe ou aux États-Unis, employés du secteur de la tech... Pas forcément les plus représentatifs de langues parlées aux confins de l'Inde ou de l'Afrique, donc.