En cherchant à améliorer l'apprentissage machine, l'équipe de DeepMind a fait une découverte sur notre propre cerveau. | Bret Kavanaugh via Unsplash
En cherchant à améliorer l'apprentissage machine, l'équipe de DeepMind a fait une découverte sur notre propre cerveau. | Bret Kavanaugh via Unsplash

Les IA fonctionnent comme le cerveau avec la dopamine

Le système de récompense/renforcement joue un rôle-clé chez l'être humain comme chez les machines.

L'apprentissage profond des intelligences artificielles, ou deep learning, fonctionne ainsi: un algorithme tente de résoudre un problème; il échoue, est puni et recommence, des millions voire des milliards de fois, jusqu'à ce le programme lui indique que la solution est la bonne et le récompense. Au terme de ce processus, l'algorithme sait comment effectuer la ou les tâches en question.

Dans les années 1990, des scientifiques ont découvert que le cerveau humain fonctionnait de manière similaire, au travers du système de récompense/renforcement reposant sur la dopamine.

«Lorsqu'un humain ou un animal est sur le point d'effectuer une action, ses neurones dopaminergiques font une prédiction sur la récompense attendue. Une fois la récompense réelle reçue, ils libèrent une quantité de dopamine correspondant à l'erreur de prédiction», explique la MIT Technology Review.

Si la récompense est plus importante que prévue, la quantité de dopamine émise sera plus forte; si la récompense est plus faible, elle sera moins importante: «La dopamine sert de signal de correction, disant aux neurones d'ajuster leurs prédictions jusqu'à ce qu'elles convergent vers la réalité» –comme dans l'apprentissage machine.

Neurones optimistes ou pessimistes

L'équipe de DeepMind a décidé d'affiner cette approche. En 2017, elle a testé un apprentissage machine où la récompense n'est plus un nombre unique représentant une moyenne, mais une distribution avec plusieurs nombres formant une moyenne. Ses résultats étaient bien meilleurs.

DeepMind a souhaité savoir si le cerveau fonctionnait de la même manière. Dans une étude publiée dans Nature, réalisée en collaboration avec des scientifiques de Harvard, ses spécialistes ont examiné les neurones dopaminergiques de souris récompensées lorsque des jets de dés donnaient certains chiffres.

Il a été constaté que chaque neurone libérait des quantités différentes de dopamine: ils n'ont pas les mêmes prédictions de récompense face à un comportement donné. Certains sont plus optimistes et d'autres plus pessimistes, mais la moyenne qu'ils forment est juste. «Lorsque les chercheurs ont cartographié la distribution de ces prédictions, celle-ci correspondait de près à la distribution des récompenses réelles».

L'étude valide l'utilité de la récompense par distribution pour l'apprentissage machine. Elle pourrait également aider à mieux comprendre des troubles comme la dépression, en se penchant sur les dysfonctionnements des neurones dopaminergiques. Et plus largement, elle nous éclaire sur la formation de l'intelligence humaine.

En ce moment

Bedford, un réseau social pour deux

Et Cætera

Bedford, un réseau social pour deux

Lancée par Joshua Kushner, l'application fait le pari d'un espace intimiste, utilisable par deux personnes seulement.

Le Brexit coûte presque aussi cher que 47 ans de contribution au budget de l'UE

Biz

Le Brexit coûte presque aussi cher que 47 ans de contribution au budget de l'UE

Une indépendance relative et chèrement acquise.

La big data donne du grain à moudre au café

Biz

La big data donne du grain à moudre au café

La start-up Cropster a lancé un outil visant à sortir les producteurs de café de la pauvreté –avec, à terme, de plus vastes ambitions.