Oubliez les victoires écrasantes de Watson à «Jeopardy!». Oubliez Project Debater, Siri, Duplex et toutes ces intelligences artificielles qui semblent chaque jour étendre le périmètre de leur sagacité: en 2019, les machines restent bêtes à bêcher de la flotte.
Ce à quoi vous assistez en écarquillant les yeux, ce sont autant de démonstrations d'une intelligence artificielle dite «faible» (artificial narrow intelligence, ANI), habilement maquillées par les firmes de la Silicon Valley.
A contrario, le but à atteindre dans tous les labos de recherche, c'est l'intelligence artificielle «forte» (Artificial General Intelligence, AGI) –et personne ne sait réellement ce que c'est.
Turing obsolète
Pour mesurer l'ampleur de la route qui reste à parcourir, concentrons-nous sur la reconnaissance du langage naturel (NLP). En 2019, le test de Turing (un test sous forme de questionnaire qui, s'il était relevé par une machine, la rendrait indistinguable d'un être humain) est largement obsolète. Et pourtant, impossible de tailler le bout de gras plus de trente secondes avec l'assistant vocal le plus avancé du marché.
Le paradoxe est le suivant: nous savons aujourd'hui concevoir des algorithmes qui répondront correctement à une question, mais nous ignorons toujours largement comment ils parviennent à cette réponse.
C'est ce que l'on appelle l'effet «boîte noire». Pour dépasser cet horizon technique, des chercheurs de l'université du Maryland ont tenté une approche différente: concevoir, dans un premier temps, un système pour lire le raisonnement des machines.
De cette manière, la personne qui pose la question peut voir en direct de quel(s) élément(s) se sert le système pour répondre, et le(s) modifier. Et pour cela, rien de mieux que de collaborer avec des machines.
Faire avancer la recherche
Et ça fonctionne. L'interface a permis de récolter suffisamment de données sur les points faibles des algorithmes, et les chercheurs se sont alors attelés au véritable travail: inventer un questionnaire insoluble pour les machines et élémentaire pour les humains.
Résultat: 1.213 questions, testées en conditions réelles. De l'équipe du lycée aux champion·nes de «Jeopardy!», les humain·es ont systématiquement battu les ordinateurs. Prends ça, HAL 9000.
Au-delà de flatter notre ego d'espèce, ce travail est essentiel pour faire avancer la recherche en IA. Primo, l'analyse a permis aux chercheurs d'identifier six phénomènes sur lesquels les robots se cassent la stochastique: la paraphrase, l'apparition d'éléments de langage inattendus, le calcul et la logique (comme quoi), la triangulation d'éléments d'une question et le raisonnement en plusieurs étapes.
Mais surtout, il offre un nouvel ensemble de données à lancer en pâture aux algorithmes de demain.