En cherchant à améliorer l'apprentissage machine, l'équipe de DeepMind a fait une découverte sur notre propre cerveau. | Bret Kavanaugh via Unsplash
En cherchant à améliorer l'apprentissage machine, l'équipe de DeepMind a fait une découverte sur notre propre cerveau. | Bret Kavanaugh via Unsplash

Les IA fonctionnent comme le cerveau avec la dopamine

Le système de récompense/renforcement joue un rôle-clé chez l'être humain comme chez les machines.

L'apprentissage profond des intelligences artificielles, ou deep learning, fonctionne ainsi: un algorithme tente de résoudre un problème; il échoue, est puni et recommence, des millions voire des milliards de fois, jusqu'à ce le programme lui indique que la solution est la bonne et le récompense. Au terme de ce processus, l'algorithme sait comment effectuer la ou les tâches en question.

Dans les années 1990, des scientifiques ont découvert que le cerveau humain fonctionnait de manière similaire, au travers du système de récompense/renforcement reposant sur la dopamine.

«Lorsqu'un humain ou un animal est sur le point d'effectuer une action, ses neurones dopaminergiques font une prédiction sur la récompense attendue. Une fois la récompense réelle reçue, ils libèrent une quantité de dopamine correspondant à l'erreur de prédiction», explique la MIT Technology Review.

Si la récompense est plus importante que prévue, la quantité de dopamine émise sera plus forte; si la récompense est plus faible, elle sera moins importante: «La dopamine sert de signal de correction, disant aux neurones d'ajuster leurs prédictions jusqu'à ce qu'elles convergent vers la réalité» –comme dans l'apprentissage machine.

Neurones optimistes ou pessimistes

L'équipe de DeepMind a décidé d'affiner cette approche. En 2017, elle a testé un apprentissage machine où la récompense n'est plus un nombre unique représentant une moyenne, mais une distribution avec plusieurs nombres formant une moyenne. Ses résultats étaient bien meilleurs.

DeepMind a souhaité savoir si le cerveau fonctionnait de la même manière. Dans une étude publiée dans Nature, réalisée en collaboration avec des scientifiques de Harvard, ses spécialistes ont examiné les neurones dopaminergiques de souris récompensées lorsque des jets de dés donnaient certains chiffres.

Il a été constaté que chaque neurone libérait des quantités différentes de dopamine: ils n'ont pas les mêmes prédictions de récompense face à un comportement donné. Certains sont plus optimistes et d'autres plus pessimistes, mais la moyenne qu'ils forment est juste. «Lorsque les chercheurs ont cartographié la distribution de ces prédictions, celle-ci correspondait de près à la distribution des récompenses réelles».

L'étude valide l'utilité de la récompense par distribution pour l'apprentissage machine. Elle pourrait également aider à mieux comprendre des troubles comme la dépression, en se penchant sur les dysfonctionnements des neurones dopaminergiques. Et plus largement, elle nous éclaire sur la formation de l'intelligence humaine.

En ce moment

Aux États-Unis, la société pharmaceutique Ferring décroche un monopole sur le caca

Tech

Aux États-Unis, la société pharmaceutique Ferring décroche un monopole sur le caca

Et ce, au détriment des malades.

Le prototype du robot musical de Google est là, et le résultat n'est pas fameux

Tech

Le prototype du robot musical de Google est là, et le résultat n'est pas fameux

Les compositeurs ont encore de beaux jours devant eux.

L'empreinte carbone de Coca-Cola n'est pas due à ce que vous croyez

Tech

L'empreinte carbone de Coca-Cola n'est pas due à ce que vous croyez

Il y a pire pour le climat que les 200.000 véhicules utilisés chaque jour pour transporter les boissons de la marque.