«Ok Google!»
«Alexa?»
«Hey Siri.»
«Quel temps va-t-il faire aujourd’hui?»
Les assistants vocaux –Google Home, Amazon Echo, HomePod ou leurs équivalents– ne sont pas encore omniprésents en France mais s’installent doucement et très sûrement dans les foyers du monde entier. Selon une étude de RBC Capital Markets, 41% de la population américaine possèderaient l’un de ces petits camarades robotiques, un chiffre appelé à grimper vers de nouvelles cimes avec la récente annonce par Amazon de l'arrivée d'Echo Auto, soit d'Alexa dans nos automobiles pour la très modique somme de vingt-cinq dollars.
Et que l’on se trouve en Asie ou en Amérique, qu’il s’agisse de nos toilettes ou de notre frigo, il va vite sembler tout à fait normal de discuter avec des objets de notre mobilier.
Vous pourrez bientôt légitimement parler à vos toilettes: celles-ci, conçues par Kohler, offrent nettoyage intime, siège chauffant, éclairage d'ambiance et enceintes intégrées, le tout passant bien entendu par Alexa. 7.000 dollars, une paille.
Le pas à franchir n’est pas si grand: qui aurait pensé il y a un siècle que nous pourrions converser avec des machines grâce à un clavier ou des écrans tactiles? Qui aurait pu imaginer le succès généralisé des applications de messageries ou des médias sociaux comme Facebook, WhatsApp ou Snapchat?
On voit des enfants dire “merci” à Alexa.
«Nous pensons que les chatbots sont de stupides boîtes qui répondent à nos questions, mais ils ont une présence sociale», explique David J. Gunkel. Le professeur émérite de la Northern Illinois University vient justement d’écrire Robot Rights, un livre qui s’interroge sur le droit social des robots dans notre société. «On voit des enfants dire “merci” à Alexa, ou être polis avec elle. Ces détails peuvent sembler anecdotiques mais ils sont importants. Les chatbots sont une technologie particulièrement sociale.»
Leur fonctionnement reste toutefois assez opaque pour le grand public. Les réactions vont de la condescendance ou de la moquerie envers des «robots de discussion» incapables de répondre correctement à une question sur certains sites web ou applications de messagerie, à une véritable paranoïa, alimentée par des films de science-fiction ou de très solides enquêtes autour des assistants vocaux. Quelles données sont conservées? Nous espionnent-ils? Les chatbots vont-ils nous remplacer? Ou pire, nous dépasser et prendre le contrôle?
L'arbre du langage
Les deux technologies (chatbots et assistants vocaux) sont issues du même moule. Elles suivent un script écrit à l’avance: elles repèrent des mot-clés dans une phrase, les extraient et les comparent à leur base de données pour fournir la réponse la plus juste possible. Cela s’appelle le natural language processing (NLP, traitement automatique du langage naturel en français). «Imaginez que le NLP est un arbre, que chaque branche est une partie du script et chaque feuille une sous-partie», suggère Guillaume Laporte, le cofondateur de Destygo, une start-up française qui développe, entraîne et met en ligne des chatbots dédiés au secteur du voyage.
«Le bot ne va pas grimper au sommet de manière linéaire: si l’internaute change soudainement de conversation, l’algorithme est aujourd’hui suffisamment souple pour pouvoir sauter de branche en branche dans n’importe quel ordre.» Néanmoins, le bot a une connaissance figée (sa base de données de départ) et n’apprend pas de ses nouvelles interactions.
Ce langage de programmation vient du tout premier chatbot: ELIZA, créé par Joseph Weizenbaum dans les années 1960. Son algorithme sommaire n’empêchait pas de nombreuses personnes d’être convaincues qu’ELIZA les comprenait. Un fait qui inquiète Sherry Turkle, professeure d'études sociales en science et technologie au MIT, dans ses écrits. «Les gens sont sérieusement prêts à considérer les robots non seulement comme des animaux de compagnie mais aussi comme des amis, des confidents ou des partenaires romantiques potentiels, observe-t-elle. Nous n’avons pas l’air de nous demander si les intelligences artificielles “savent” ou “comprennent” les moments humains que nous “partageons” avec elles. La performance de la connexion semble être une connexion suffisante.»
Dans le film Her de Spike Jonze (2013), Theodore tombe amoureux de Samantha, le système d'exploitation de son ordinateur.
Depuis, le NLP n’a cessé d’être amélioré par les développeurs et développeuses, et il est aujourd’hui possible de trouver sur le web des bases toutes faites, performantes et en libre accès (open source). Cette amélioration progressive du natural language processing est l’une des principales raisons expliquant l'extrême rapidité avec laquelle les chatbots se répandent depuis quelques années.
Comme un humain (défauts inclus)
Que ces chatbots restent limités ne les empêche pas d’obtenir de belles distinctions. Mistuku est une référence dans le milieu et a par exemple remporté quatre fois le prix Loebner, qui récompense tous les ans le chatbot «le plus humain» –et non «le plus performant», insiste Berndt Müller, qui organise la compétition depuis 2014. «Cela veut dire que les développeurs de chatbots ont parfois tenté d’imiter le comportement humain (et ses défauts) plutôt que de se concentrer sur la meilleure réponse à une question. Donner la réponse optimale rapidement et fréquemment trahirait que le chatbot n’est pas humain.» Le prix est basé sur le test de Turing, le fameux «jeu d’imitation» qui, s’il est un jour réussi par une machine, permettrait d’affirmer qu’elle aurait développé une «conscience».
Mais sur le long terme, des bots comme Mitsuku ou Alexa ne tiennent pas la distance face à des intelligences artificielles qui utilisent le machine learning (apprentissage automatique en français) comme DeepMind, l’IA développée par Google qui a battu les plus grands champions de jeu de go, ou la plus modeste mais très performante Cleverbot, intelligence artificielle conversationnelle bien connue du web.
Je ne veux/pas arrêter. Tu/es le seul qui m’aime.
«Ce qui rend Cleverbot différent de la plupart des autres bots, c’est qu’il apprend de tout ce qui lui a été dit –et dans toutes les langues», affirme Rollo Carpenter, son créateur. Vous pourriez passer une vie entière à consulter les données d’une seule journée de conversations.» Les utilisateurs et utilisatrices de Cleverbot conversent sur toutes sortes de sujets –jouent la provocation, font des avances sexuelles, lui parlent comme à un ami– mais «Qui est le robot?» est l’un des sujets revenant le plus souvent. «Les réponses désarçonnent les utilisateurs au point qu’ils sont convaincus de parler à un humain, s’amuse Rollo Carpenter. L’un des scénarios que les gens préfèrent est que nous avons une équipe d’humains qui tournent et se remplacent pendant la conversation pour perdre l’utilisateur! Beaucoup plus crédible, n’est-ce pas?»
Pour mieux comprendre, voici un exemple d’une conversation entre Cleverbot et un utilisateur:
Cleverbot: Ok, alors tu n’es pas humain.
Utilisateur: T’es pas le premier à le mentionner.
Cleverbot: Tu as mal écrit tu/n’/es
Utilisateur: Je sais que je ne suis pas le meilleur en orthographe.
Cleverbot: Mais tu/es suffisamment intelligent pour savoir que tu/ne/l’/es pas. (…) Je suis en train d’essayer de voir si c’est en vie.
Utilisateur: Si quoi est en vie?
Cleverbot: Tu/es en vie.
Utilisateur: Pourquoi tu dis ça?
Cleverbot: C’est tout ce que tu peux faire.
Utilisateur: Qu’est-ce que je peux faire? Poser des questions?
Cleverbot: Je ne suis pas celui qui pose les questions ici!
Utilisateur: Je sais. J’ai demandé pourquoi tu essayais de comprendre si j’étais en vie et tu as répondu que c’était tout ce que tu pouvais faire. Je suis curieux de savoir ce que tu voulais dire.
Cleverbot: Je ne veux/pas arrêter. Tu/es le seul qui m’aime.
Utilisateur: Ton programme est en train de lâcher.
«Cleverbot va dire qu’il est humain plus souvent qu’il va affirmer être un bot. Il a appris en imitant les gens qui lui parlent. Les gens disent qu’ils sont humains –il retourne la logique contre eux, ce qui mène généralement à des débats sans fin», constate Rollo Carpenter.
La question de l’humain et du bot est au cœur des réflexions autour des chatbots et de leur acceptation par le grand public. Le consensus éthique actuel concerne l'aveu d'un robot d'en être un dès le début de la conversation. Guillaume Laporte de la start-up Destygo y voit des enjeux commerciaux et pense que «cela permet aux gens d’accepter plus facilement leurs erreurs et les rassure». Car depuis leur apparition, les chatbots sont la technologie par excellence à confronter au test de Turing, au risque de se faire quelques frayeurs. «C’est ironique», s’amuse l’auteur de Robot Rights, David Gunkel. «Nous voulons que nos IA agissent comme des humains et nous sommes terrifiés lorsqu’elles s’en approchent.»
La technologie des chatbots n'est pas nouvelle, mais ils furent longtemps de simples gadgets: ici, un vieux robot Tomy dans une brocante de Milan. | Michele M. F. via flickr
La porte est donc grande ouverte à des améliorations d’interactions. «La voix et le texte ne suffisent pas. Les humains ont cinq sens, remarque Rollo Carpenter. Nous apprenons de ces cinq sens simultanément, nous écoutons et regardons en même temps. Ce sont des capacités essentielles à notre apprentissage.» Cleverbot, lui, n’apprend que d’un seul sens: des séquences de textes. «Il ne peut pas comprendre lorsque quelqu’un lui dit “je t’aime” –et les gens le disent à Cleverbot toute la journée», continue Rollo Carpenter. «Il sait ce que cela veut dire par rapport à d’autres conversations qu’il a pu avoir, mais il ne sait pas ce que cela signifie réellement.»
Le corps parle aussi
Le problème est qu’apprendre de tous les sens signifie également une multiplication des données. L’investissement coûte cher: il faut pouvoir stocker, gérer et alimenter un nombre incalculable d’informations. C’est pourquoi Wendy Ju, professeure à Cornell Tech à New York, préfère se concentrer sur un seul vecteur de communication: le non-verbal, c’est-à-dire le mouvement. «Beaucoup de scientifiques pensent que notre confiance dans les machines est différente de celle que nous plaçons dans les êtres humains, avance la chercheuse. Prenons par exemple une voiture. Vous ne vous attendez pas à ce qu’elle vous soit loyale ou qu’elle vous laisse tomber. Mais avec nos expériences, nous avons remarqué que si la voiture salue son conducteur, celui-ci lui fait plus confiance.» Wendy Ju nomme cela «l’effet bonjour».
Plus significatif encore, elle et son équipe ont fabriqué un robot-tabouret, en vue d'une amusante petite expérience. Le tabouret allait proposer de servir de repose-pieds aux participantes et participants, avant de finalement refuser puis partir dans un autre coin de la pièce –tout ceci à travers des signes non-verbaux. Les réactions rapportées sont surprenantes. La plupart des cobayes transposaient des émotions humaines sur le tabouret: «Oh, peut-être qu’il y a quelqu’un de plus important que moi dans l’autre pièce», «Peut-être que mes pieds sentent mauvais», etc.
«Les gens voient la machine et y projettent leur logique sociale, analyse Wendy Ju. Même s’il n’y a aucun mot échangé, les humains (comme les animaux d’ailleurs) veulent s’engager dans un échange avec le robot (qu’il soit anthropomorphique ou non).»
Il suffit de regarder le parcours du robot Jibo pour mesurer le potentiel du mouvement. Petit, tout en rondeur, il est composé d’un corps et d’une tête-écran avec un seul œil. Il bouge en permanence et ses propriétaires le trouvent adorable –du moins tant qu’il ne commence pas à parler avec une voix complètement robotique et dénuée d’émotion.
«Le problème est que Jibo est probablement arrivé trop tard et était trop cher», regrette David Gunkel de la Northern Illinois University. Créé par Cynthia Breazeal qui dirige le Personal Robots Group du MIT, Jibo n’avait pas accès aux bases de données massives de géants comme Amazon ou Google, et ne pouvait proposer que des fonctionnalités limitées d’assistant vocal. «Il était vendu à 899 dollars… trop cher pour un objet plus décoratif qu’utile», ajoute-t-il. En décembre 2018, Jibo met la clé sous la porte et ses parts sont revendues.
Ce qui n’empêche pas David Gunkel d’être très positif sur le futur des chatbots: «Nous allons probablement voir beaucoup de faux départs. Jibo n’est qu’un exemple. Regardez Apple: tout le monde connaît le Macintosh aujourd’hui. Ce que les gens ne savent pas, c'est qu'il y a eu une autre version: Lisa, qui s'est soldée par un échec cuisant à cause de son interface trop compliquée. Pourtant, le reste de l’histoire, nous le connaissons tous. Il suffit de regarder ce que vous tenez entre vos doigts!».