Le célèbre tableur a une fâcheuse tendance à la conversion en dates ou en nombres à virgule flottante de données textuelles. | Alexander Popov via Unsplash
Le célèbre tableur a une fâcheuse tendance à la conversion en dates ou en nombres à virgule flottante de données textuelles. | Alexander Popov via Unsplash

Des gènes humains renommés à cause d'erreurs Excel

Les corrections automatiques du logiciel de Microsoft sont un vrai casse-tête pour les équipes de recherche.

Dans la génétique, on passe une grande partie de son temps à manipuler des données. Le plus souvent, il faut commencer par rentrer les noms des gènes sur lesquels on travaille dans une feuille Excel. Sauf que le tableur de Microsoft, davantage expert en calcul qu'en génétique, transforme bêtement certaines appellations en date, à l'image de l'outil de correction orthographique dans Word.

Le génome humain contient environ 21.000 gènes, patiemment séquencés par les équipes de scientifiques du monde entier. Chaque gène est nommé par un code alphanumérique désignant généralement sa fonction ou son emplacement –comme HVBS7, pour «hepatitis B virus integration site 7».

Le souci, c'est que plusieurs codes ressemblent malencontreusement à des dates, à l'instar de MARCH1 («membrane associated ring-CH-type finger 1»), qu'Excel modifie automatiquement en «1-Mar» (1er mars). Un détail qui peut sembler anodin, mais qui a de lourdes conséquences.

En 2016, une étude avait montré que les corrections automatiques d'Excel étaient à l'origine d'erreurs dans 20% des publications scientifiques concernant la génétique. Les chercheurs avaient constaté qu'outre les conversions en dates, le tableur changeait des identifiants en nombres à virgule flottante –«2310009E13» devient par exemple «2.31E+13».

Nomenclature ajustée

Le problème n'est pas nouveau, mais il irrite au plus haut point la communauté scientifique. «C'est vraiment, vraiment ennuyeux, s'agace auprès de The Verge Dezső Módos, biologiste à l'Institut Quadram, au Royaume-Uni. Excel est un outil très répandu et si vous n'y connaissez pas grand-chose en informatique, vous l'utiliserez.» Même en changeant le format de la colonne, l'erreur peut persister lorsque le fichier est envoyé en CSV et ouvert par une autre personne.

Le 3 août, le HUGO Gene Nomenclature Committee (HGCN), l'organisme chargé de nommer les gènes, s'est donc résolu à mettre à jour ses recommandations officielles, afin de limiter les confusions. Depuis un an, vingt-sept gènes avaient dû être renommés –parmi lesquels MARCH1, transformé en MARCHF1, et SEPT1, devenu SEPTIN1.

Cette décision n'est pas totalement inhabituelle. D'autres symboles ont précédemment été changés pour éviter les confusions avec des noms communs, comme CARS (voitures), modifié en CARS1, ou MARS, désormais MARS1. C'est néanmoins la première fois que les règles sont réécrites pour tenir compte des contraintes d'un logiciel.

Science et informatique ne font décidément pas bon ménage. En 2019, une équipe de recherche avait relevé qu'une étude sur les cyanobactéries publiée en 2014 était parvenue à des résultats erronés en raison d'un bug dans un script de programmation Python, un langage couramment utilisé dans l'analyse de données chimiques. Quelque 158 autres articles scientifiques basés sur l'étude originale auraient possiblement été biaisés.

En ce moment

Des robots qui se reproduisent tout seuls: rêve ou cauchemar pour l'humanité?

Tech

Des robots qui se reproduisent tout seuls: rêve ou cauchemar pour l'humanité?

Un savant mélange d'évolution darwinienne et d'intelligence artificielle.

Football: à Liverpool, l'intelligence artificielle s'immisce dans les tactiques de jeu

Tech

Football: à Liverpool, l'intelligence artificielle s'immisce dans les tactiques de jeu

Comment tirer un pénalty? À quel moment faut-il faire une passe ou remplacer un attaquant?

Comment un pays grand comme Narbonne compte imposer une taxe carbone au reste du monde

Biz

Comment un pays grand comme Narbonne compte imposer une taxe carbone au reste du monde

La République des Îles Marshall est petite mais influente.