Dans la génétique, on passe une grande partie de son temps à manipuler des données. Le plus souvent, il faut commencer par rentrer les noms des gènes sur lesquels on travaille dans une feuille Excel. Sauf que le tableur de Microsoft, davantage expert en calcul qu'en génétique, transforme bêtement certaines appellations en date, à l'image de l'outil de correction orthographique dans Word.
Le génome humain contient environ 21.000 gènes, patiemment séquencés par les équipes de scientifiques du monde entier. Chaque gène est nommé par un code alphanumérique désignant généralement sa fonction ou son emplacement –comme HVBS7, pour «hepatitis B virus integration site 7».
Le souci, c'est que plusieurs codes ressemblent malencontreusement à des dates, à l'instar de MARCH1 («membrane associated ring-CH-type finger 1»), qu'Excel modifie automatiquement en «1-Mar» (1er mars). Un détail qui peut sembler anodin, mais qui a de lourdes conséquences.
En 2016, une étude avait montré que les corrections automatiques d'Excel étaient à l'origine d'erreurs dans 20% des publications scientifiques concernant la génétique. Les chercheurs avaient constaté qu'outre les conversions en dates, le tableur changeait des identifiants en nombres à virgule flottante –«2310009E13» devient par exemple «2.31E+13».
Nomenclature ajustée
Le problème n'est pas nouveau, mais il irrite au plus haut point la communauté scientifique. «C'est vraiment, vraiment ennuyeux, s'agace auprès de The Verge Dezső Módos, biologiste à l'Institut Quadram, au Royaume-Uni. Excel est un outil très répandu et si vous n'y connaissez pas grand-chose en informatique, vous l'utiliserez.» Même en changeant le format de la colonne, l'erreur peut persister lorsque le fichier est envoyé en CSV et ouvert par une autre personne.
Le 3 août, le HUGO Gene Nomenclature Committee (HGCN), l'organisme chargé de nommer les gènes, s'est donc résolu à mettre à jour ses recommandations officielles, afin de limiter les confusions. Depuis un an, vingt-sept gènes avaient dû être renommés –parmi lesquels MARCH1, transformé en MARCHF1, et SEPT1, devenu SEPTIN1.
Cette décision n'est pas totalement inhabituelle. D'autres symboles ont précédemment été changés pour éviter les confusions avec des noms communs, comme CARS (voitures), modifié en CARS1, ou MARS, désormais MARS1. C'est néanmoins la première fois que les règles sont réécrites pour tenir compte des contraintes d'un logiciel.
Science et informatique ne font décidément pas bon ménage. En 2019, une équipe de recherche avait relevé qu'une étude sur les cyanobactéries publiée en 2014 était parvenue à des résultats erronés en raison d'un bug dans un script de programmation Python, un langage couramment utilisé dans l'analyse de données chimiques. Quelque 158 autres articles scientifiques basés sur l'étude originale auraient possiblement été biaisés.