Le célèbre tableur a une fâcheuse tendance à la conversion en dates ou en nombres à virgule flottante de données textuelles. | Alexander Popov via Unsplash
Le célèbre tableur a une fâcheuse tendance à la conversion en dates ou en nombres à virgule flottante de données textuelles. | Alexander Popov via Unsplash

Des gènes humains renommés à cause d'erreurs Excel

Les corrections automatiques du logiciel de Microsoft sont un vrai casse-tête pour les équipes de recherche.

Dans la génétique, on passe une grande partie de son temps à manipuler des données. Le plus souvent, il faut commencer par rentrer les noms des gènes sur lesquels on travaille dans une feuille Excel. Sauf que le tableur de Microsoft, davantage expert en calcul qu'en génétique, transforme bêtement certaines appellations en date, à l'image de l'outil de correction orthographique dans Word.

Le génome humain contient environ 21.000 gènes, patiemment séquencés par les équipes de scientifiques du monde entier. Chaque gène est nommé par un code alphanumérique désignant généralement sa fonction ou son emplacement –comme HVBS7, pour «hepatitis B virus integration site 7».

Le souci, c'est que plusieurs codes ressemblent malencontreusement à des dates, à l'instar de MARCH1 («membrane associated ring-CH-type finger 1»), qu'Excel modifie automatiquement en «1-Mar» (1er mars). Un détail qui peut sembler anodin, mais qui a de lourdes conséquences.

En 2016, une étude avait montré que les corrections automatiques d'Excel étaient à l'origine d'erreurs dans 20% des publications scientifiques concernant la génétique. Les chercheurs avaient constaté qu'outre les conversions en dates, le tableur changeait des identifiants en nombres à virgule flottante –«2310009E13» devient par exemple «2.31E+13».

Nomenclature ajustée

Le problème n'est pas nouveau, mais il irrite au plus haut point la communauté scientifique. «C'est vraiment, vraiment ennuyeux, s'agace auprès de The Verge Dezső Módos, biologiste à l'Institut Quadram, au Royaume-Uni. Excel est un outil très répandu et si vous n'y connaissez pas grand-chose en informatique, vous l'utiliserez.» Même en changeant le format de la colonne, l'erreur peut persister lorsque le fichier est envoyé en CSV et ouvert par une autre personne.

Le 3 août, le HUGO Gene Nomenclature Committee (HGCN), l'organisme chargé de nommer les gènes, s'est donc résolu à mettre à jour ses recommandations officielles, afin de limiter les confusions. Depuis un an, vingt-sept gènes avaient dû être renommés –parmi lesquels MARCH1, transformé en MARCHF1, et SEPT1, devenu SEPTIN1.

Cette décision n'est pas totalement inhabituelle. D'autres symboles ont précédemment été changés pour éviter les confusions avec des noms communs, comme CARS (voitures), modifié en CARS1, ou MARS, désormais MARS1. C'est néanmoins la première fois que les règles sont réécrites pour tenir compte des contraintes d'un logiciel.

Science et informatique ne font décidément pas bon ménage. En 2019, une équipe de recherche avait relevé qu'une étude sur les cyanobactéries publiée en 2014 était parvenue à des résultats erronés en raison d'un bug dans un script de programmation Python, un langage couramment utilisé dans l'analyse de données chimiques. Quelque 158 autres articles scientifiques basés sur l'étude originale auraient possiblement été biaisés.

En ce moment

Nagui et les chevaux: comment la course au clic transforme une simple blague en «rumeur»

Et Cætera

Nagui et les chevaux: comment la course au clic transforme une simple blague en «rumeur»

De la «private joke» à la fake news, itinéraire d'une bien étrange histoire.

Wildtype, la start-up qui crée des sushis in vitro

Tech

Wildtype, la start-up qui crée des sushis in vitro

Êtes-vous prêts pour le saumon produit en laboratoire?

L'US Air Force a conçu et testé un nouvel avion de chasse en 12 mois seulement

Tech

L'US Air Force a conçu et testé un nouvel avion de chasse en 12 mois seulement

Stupeur totale dans le monde de la défense.