L'apprentissage profond des intelligences artificielles, ou deep learning, fonctionne ainsi: un algorithme tente de résoudre un problème; il échoue, est puni et recommence, des millions voire des milliards de fois, jusqu'à ce le programme lui indique que la solution est la bonne et le récompense. Au terme de ce processus, l'algorithme sait comment effectuer la ou les tâches en question.
Dans les années 1990, des scientifiques ont découvert que le cerveau humain fonctionnait de manière similaire, au travers du système de récompense/renforcement reposant sur la dopamine.
«Lorsqu'un humain ou un animal est sur le point d'effectuer une action, ses neurones dopaminergiques font une prédiction sur la récompense attendue. Une fois la récompense réelle reçue, ils libèrent une quantité de dopamine correspondant à l'erreur de prédiction», explique la MIT Technology Review.
Si la récompense est plus importante que prévue, la quantité de dopamine émise sera plus forte; si la récompense est plus faible, elle sera moins importante: «La dopamine sert de signal de correction, disant aux neurones d'ajuster leurs prédictions jusqu'à ce qu'elles convergent vers la réalité» –comme dans l'apprentissage machine.
Neurones optimistes ou pessimistes
L'équipe de DeepMind a décidé d'affiner cette approche. En 2017, elle a testé un apprentissage machine où la récompense n'est plus un nombre unique représentant une moyenne, mais une distribution avec plusieurs nombres formant une moyenne. Ses résultats étaient bien meilleurs.
DeepMind a souhaité savoir si le cerveau fonctionnait de la même manière. Dans une étude publiée dans Nature, réalisée en collaboration avec des scientifiques de Harvard, ses spécialistes ont examiné les neurones dopaminergiques de souris récompensées lorsque des jets de dés donnaient certains chiffres.
Il a été constaté que chaque neurone libérait des quantités différentes de dopamine: ils n'ont pas les mêmes prédictions de récompense face à un comportement donné. Certains sont plus optimistes et d'autres plus pessimistes, mais la moyenne qu'ils forment est juste. «Lorsque les chercheurs ont cartographié la distribution de ces prédictions, celle-ci correspondait de près à la distribution des récompenses réelles».
L'étude valide l'utilité de la récompense par distribution pour l'apprentissage machine. Elle pourrait également aider à mieux comprendre des troubles comme la dépression, en se penchant sur les dysfonctionnements des neurones dopaminergiques. Et plus largement, elle nous éclaire sur la formation de l'intelligence humaine.