Depuis 2011, plusieurs équipes se sont lancées dans la tâche fastidieuse mais nécessaire de répliquer des études aux résultats célèbres dans différents champs d’études. Leurs conclusions successives ont fait l’effet d’un tsunami dans la communauté scientifique: sur les 100 études les plus célèbres de la psychologie, le Reproducibility Project n’en a validé que 36%.
Le Reproducibility Project : Psychology a essayé de dupliquer 97 études en psychologie et a constaté, en 2015, que seules 36 % d’entre elles pouvaient être confirmées.
— Nicolas MARIOTTE (@mariottenicolas) 9 septembre 2018
L’Experimental Economics Replication Project a fait de même, en…https://t.co/0UNq9CS2p4 https://t.co/foQROqxPuH
Sur dix-huit études économiques publiées entre 2010 et 2014, l’Experimental Economics Replication Project en valide onze. En oncologie, le Reproducibility Project: Cancer Biology recense un taux de reproductibilité d’à peine 40% sur vingt-neuf études publiées entre 2010 et 2012.
The Reproducibility Project: Cancer Biology, which set out to replicate 50 studies, will complete with 18.
— Chris Chambers (@chrisdc77) 1 août 2018
A major pitfall was that many of the original studies were so vaguely reported that replication became practically impossible. Just process that.https://t.co/JjjAW33hnw
Pire encore, sur 1.500 personnes qui font de la recherche interrogées en 2016, 52% considèrent que la science fait face à une crise «significative». Bref, les résultats expérimentaux ont du mal à être répliqués, et c’est la panique.
The #Reproducibility crisis. If #science fails to self-regulate, difficult to justify funding "business as usual" https://t.co/mCSuMGMfhZ
— Daniel J Drucker (@DanielJDrucker) 6 juin 2017
Rappelons l’évidence: le protocole expérimental est la pierre angulaire de tout travail de recherche. Peu importe la discipline, pour qu’un résultat expérimental ou statistique soit valide et fiable, la condition sine qua non est qu’il soit reproductible.
Cette capacité de réplication est ce qui sépare l’information scientifique de l’empirisme; bien que pour d’autres, comme Erwan Lamy dans The Conversation, il s’agit simplement d’une confusion entre validité statistique et scientifique, et c’est toujours mieux expliqué avec un strip de XKCD. Or, depuis 2018, c’est l’intelligence artificielle (IA), et plus précisément l’apprentissage machine (machine learning) qui se débat à son tour dans la tempête du doute.
La science, terrain de jeu des algorithmes
En quelques années, l’explosion du volume de données et les progrès réalisés en apprentissage machine ont graduellement placé l’IA au cœur de la recherche. Les algorithmes et leur capacité d’apprentissage surhumaine sont aujourd’hui utilisés dans plusieurs disciplines, de la biologie (pour découvrir de nouvelles molécules) à la médecine (pour détecter plus rapidement et plus efficacement certains types de cancer), avec des résultats (très) convaincants.
Pour entraîner leurs machines, les scientifiques utilisent différentes méthodes de machine learning, comme l’apprentissage profond (deep learning) ou l’apprentissage par renforcement (reinforcement learning).
Ces apprentissages supervisés par un être humain se fondent sur un système de récompense et une architecture en «couches». Chaque résultat (ou inférence) complexifie le raisonnement du programme. C’est cette technique qui a notamment permis à DeepMind de régner en maître sur le jeu de go.
Le machine learning, c’est de l’alchimie
Imaginons que vous êtes un·e scientifique qui souhaite prédire de futures races de chats par extrapolation. Premièrement, vous allez fournir à votre IA (appelée «agent») une base de données (dataset) de toutes les races recensées; vous allez ensuite poser des limites biologiques et techniques au croisement; enfin, vous allez tester l’agent puis le laisser travailler. Il va explorer toutes les options possibles en respectant vos paramètres, puis vous proposer des résultats.
Si le chat qu’il génère est «impossible», vous refusez le résultat, il prend note et s’affine en générant une nouvelle «couche» logique. S’il vous sort une nouvelle race possible, bingo! Vous le récompensez, il s’affine encore, crée une couche, et ainsi de suite. Le problème, c’est que dans les deux cas, vous n’avez aucune idée de la manière dont l’algorithme a «raisonné».
En machine learning, le problème de la reproductibilité se révèle multiple. Déjà parce que, faute de standards méthodologiques internationaux, personne ne peut vérifier par quelle méthode votre base de données de chats a été collectée ou la manière dont vous avez labellisé chaque race de félin. Une question critique, car c’est cet ensemble de données qui fournit le contexte de recherche –ou l’«environnement»– à votre algorithme: en l'absence de données fiables, un algorithme ne vaut rien.
Ensuite parce que, même si vous utilisez un logiciel open source, rien ne garantit la réplicabilité. Pourquoi? Car, pour reprendre les mots d’Ali Rahimi, chercheur en IA chez Google, l’apprentissage machine revient à faire «de l’alchimie».
#TechTopics: Google AI Expert: Machine Learning Is No Better Than Alchemy#tech #technology #datascience #neuralnetworks #ai #ml #agihttps://t.co/msBu5cOrgd
— Chuck Russell (@cichuck) 13 mai 2018
Depuis l’entrée des données (input) jusqu'à l’obtention d’un résultat (output), le processus demeure plus ou moins opaque. Dans le monde de la recherche en intelligence artificielle, cette zone floue est appellée la «boîte noire» (black box).
Des algos et des hommes
En février 2019, la docteure Genevera Allen de l’université Rice (Houston), interrogée par la BBC, mettait le doigt sur un autre aspect du problème, lié à l’inférence.
AAAS: Machine learning 'causing science crisis' https://t.co/wPmGYtUd4V
— James Marshall (@DrJimminy) 17 février 2019
Un algorithme ne vous dira (presque) jamais qu’il ne sait pas, il n’est pas programmé pour ça. Si vous lui ordonnez d’identifier des motifs dans des données, encore et encore, il finira par en trouver… et de plus en plus, confondant corrélation et causalité. Mais ces motifs ne vaudront rien car selon Allen, élargir ou remplacer le dataset suffira pour invalider les résultats.
Même constat chez Joëlle Pineau, professeure à l’université MacGill de Montréal, qui démontrait en février dernier que l’obtention de résultats par algorithme de machine learning était corrélée à bien plus de facteurs que ce que l’on croyait: la manière de décerner la «récompense» au logiciel, l’architecture du matériel informatique utilisé (ces simulations requièrent souvent de nombreux processeurs qui collaborent simultanément), mais aussi… le nombre de fois où l'équipe de recherche lance le programme (cinq fois en moyenne, ce qui est insuffisant pour faire émerger des écarts-types).
Enfin, explique Pineau, nombre de scientifiques ne prennent pas soin de noter scrupuleusement tous les ajustements algorithmiques effectués pendant le processus.
Ainsi, une étude menée sur trente travaux d’automatisation d’analyse de texte (text mining) a démontré que la majeure partie des résultats était impossible à reproduire, faute de méthodologie précise.
Réformer les pratiques, ouvrir la science
À l’heure des machines, où l’aléatoire semble faire partie du jeu, c’est aussi la rigueur humaine dans la data science qui est pointée du doigt. Pour certain·es, l’hégémonie du machine learning ne fait que révéler certaines failles méthodologiques de la data science –comme la pratique du «HARKing», qui consiste à émettre des hypothèses en fonction des trouvailles de l’algorithme.
Opinion: The Machine Learning Reproducibility Crisishttps://t.co/q5Z27Qd3EQ pic.twitter.com/bCKFgv7ysh
— SC19 (@Supercomputing) 1 août 2018
Pour d’autres, la crise de la reproductibilité est une conséquence de la marchandisation de la publication scientifique, qui oblige les personnes qui mènent des recherches à publier plus souvent et plus vite. Une autre critique, enfin, estime que les algorithmes encouragent la manipulation d’écarts-types, une pratique baptisée «p-hacking». Dans tous les cas, c’est l’humain qu’il faudrait incriminer, pas la machine.
Alors, que faire pour combattre le croquemitaine de la réplication? Les pistes sont diverses. Mettre en place des standards, avance Joëlle Pineau, qui propose une «checklist» méthodologique. Obliger les équipes de recherche à n’utiliser que certains ensembles de données dédiés à la recherche, comme ImageNet ou d’autres.
Démocratiser la science ouverte (sur 400 études publiées ces dernières années, seules 6% publiaient intégralement le code de l’algorithme utilisé). Fixer un nombre d’inférences (minimum… et maximum). Mettre en place des bancs d’essais comparatifs (benchmarks) d’outils, comme c’est le cas au sein de la communauté TensorFlow, la plateforme de machine learning de Google.
Démocratiser la science ouverte. Embaucher des étudiant·es pour tenter de reproduire les résultats. Ou, comme le Darpa (organe de recherche de la défense américaine), mettre en place un score de réputation… décerné par des robots. Non, oubliez ça. Démocratiser la science ouverte, plutôt.