Science et technologie

Microsoft Excel, bug dans les gènes, attention à ses conversions

Un grand nombre d’articles scientifiques dans la recherche génétique s’accompagne de données annexes contenant des informations approfondies et détaillées sur les gènes étudiés. Les scientifiques connaissent désormais des dizaines de milliers de gènes. Il est donc nécessaire, lors d’une mise en parallèle de différents travaux, de traiter un nombre impressionnant de données. Cette tache fastidieuse est confiée le plus souvent à une application et en particulier à un logiciel de traitement de données comme Microsoft Excel.

Les trois chercheurs (Mark Ziemann, Yotam Eren and Assam El-Osta) publie une étude démontrant une série d’erreurs communes dans plusieurs documents scientifique issus d’un traitement par Excel.

Excel, attention à la conversion automatique en date

Le problème vient d’une fonction native de l’application qui convertit automatiquement certaines entrées en d’autres formats de données. Ainsi le nom des gènes sont remplacés.

Il est par exemple expliqué que si un chercheur écrit SEPT 2 (contraction pour le nom de Septin 2), le texte est automatiquement transformé en 2-sept, une date. La même chose se produit avec l’entrée MARCH1 (Membrane-Associated Ring Finger (C3HC4)). Ils soulignent qu’outre les dates, Excel écorche aussi des noms de gènes en les transformant dans divers formats numériques.

L’erreur n’a pas été découverte avant par le simple fait que les données sont injectées dans le tableur par la fonction Copier/coller à partir de tables ou d’autres sources à l’intérieur des fichiers Excel. Des centaines ou des milliers de valeurs sont ainsi collectées en quelques secondes. Chaque ligne n’est pas écrite à la main, le travail serait bien trop long.

Ils mettent en avant que cette conversion a lieu sans que les chercheurs s’en rendent compte. La reprise des données dans de nouveaux documents aboutit à des erreurs supplémentaires, à des données invérifiables ou surtout à des calculs complétement erronés.

Il y a une solution, Google

Cette affaire a heureusement une solution afin d’éviter à l’avenir que ce problème se reproduise. Elle passe par la concurrence.

 «  À ce jour, il n’y a aucun moyen de désactiver de façon permanente la conversion automatique des dates dans MS Excel et d’autres logiciels de tableur comme LibreOffice Calc ou Apache OpenOffice Calc. Nous notons, toutefois, que le programme de feuille de calcul Google Sheets ne convertit pas les noms des gènes en date ou en numéro lorsque ces feuilles sont ouvertes avec Excel, LibreOffice Calc ou OpenOffice Calc »

Jérôme Gianoli

Aime l'innovation, le hardware, la High Tech et le développement durable. Soucieux du respect de la vie privée.

Voir commentaires

  • Ces erreurs de conversion ne sont ni la faute d'Excel ni celle de LibreOffice ou OpenOffice, c'est juste le signe de l'incompétence des rédacteurs et reviewers des articles incriminés. Les méthodes pour éviter ces conversions quand elles n'ont pas lieu d'être, existent depuis longtemps (depuis toujours pour OOo/LO me semble-t-il) et sont expliquées dans le papier de 2004. Pour la plupart des utilisateurs, ces conversions automatiques sont très utiles et permettent de gagner du temps.

  • Il existe des stages aussi pour apprendre à se servir Excel
    Ils ont pas l'air d'avoir le gène de l'informatique . :)

  • C'est clair, ce n'est pas du tout un bug d'excel qui lit les quelques premières lignes de données pour savoir quel format leur appliquer. Suffit de savoir utiliser Excel correctement. Une formation des scientifiques, rédacteurs d'article et chercheurs me semble nécessaire pour qu'il n'écrivent pas n'importe quoi !!!!!!!

Partager
Publié par
Jérôme Gianoli
Tags: Microsoft

Article récent

La ROG Strix B860-A Gaming WiFi se fait flasher

Les cartes mères LGA 1851 équipées du chipset Intel B860 commencent à apparaître. La ROG… Lire d'avantage

16/12/2024

GPU-Z v2.61 est disponible en téléchargement, quoi de neuf ?

L’utilitaire GPU-Z évolue en version 2.61. Le focus concerne la prise en charge de nouveaux… Lire d'avantage

16/12/2024

GeForce RTX 5070 Ti, VRAM augmentée et TDP plus élevé

Les premières informations sur la GeForce RTX 5070 Ti, prévue pour début 2025, indiquent des… Lire d'avantage

16/12/2024

SSD PCIe 5.0 x4 Platinum P51, SK hynix annonce du 14,7 Go/s !

Annoncé en mars dernier, le SK hynix Platinum P51 PCIe 5.0 est enfin lancé en… Lire d'avantage

16/12/2024

FA200, Acer dévoile un nouveau SSD PCIe 4.0 x4

Acer lève le voile sur sa gamme de SSD FA200 PCIe 4.0. Visant le milieu… Lire d'avantage

16/12/2024

Kioxia Exceria Plus G4 : Un SSD M.2 NVMe Gen 5 milieu de gamme prometteur

Kioxia a dévoilé l'Exceria Plus G4, un SSD M.2 NVMe qui promet des débits musclés… Lire d'avantage

16/12/2024