Un grand nombre d’articles scientifiques dans la recherche génétique s’accompagne de données annexes contenant des informations approfondies et détaillées sur les gènes étudiés. Les scientifiques connaissent désormais des dizaines de milliers de gènes. Il est donc nécessaire, lors d’une mise en parallèle de différents travaux, de traiter un nombre impressionnant de données. Cette tache fastidieuse est confiée le plus souvent à une application et en particulier à un logiciel de traitement de données comme Microsoft Excel.
Les trois chercheurs (Mark Ziemann, Yotam Eren and Assam El-Osta) publie une étude démontrant une série d’erreurs communes dans plusieurs documents scientifique issus d’un traitement par Excel.
Le problème vient d’une fonction native de l’application qui convertit automatiquement certaines entrées en d’autres formats de données. Ainsi le nom des gènes sont remplacés.
Il est par exemple expliqué que si un chercheur écrit SEPT 2 (contraction pour le nom de Septin 2), le texte est automatiquement transformé en 2-sept, une date. La même chose se produit avec l’entrée MARCH1 (Membrane-Associated Ring Finger (C3HC4)). Ils soulignent qu’outre les dates, Excel écorche aussi des noms de gènes en les transformant dans divers formats numériques.
L’erreur n’a pas été découverte avant par le simple fait que les données sont injectées dans le tableur par la fonction Copier/coller à partir de tables ou d’autres sources à l’intérieur des fichiers Excel. Des centaines ou des milliers de valeurs sont ainsi collectées en quelques secondes. Chaque ligne n’est pas écrite à la main, le travail serait bien trop long.
Ils mettent en avant que cette conversion a lieu sans que les chercheurs s’en rendent compte. La reprise des données dans de nouveaux documents aboutit à des erreurs supplémentaires, à des données invérifiables ou surtout à des calculs complétement erronés.
Cette affaire a heureusement une solution afin d’éviter à l’avenir que ce problème se reproduise. Elle passe par la concurrence.
« À ce jour, il n’y a aucun moyen de désactiver de façon permanente la conversion automatique des dates dans MS Excel et d’autres logiciels de tableur comme LibreOffice Calc ou Apache OpenOffice Calc. Nous notons, toutefois, que le programme de feuille de calcul Google Sheets ne convertit pas les noms des gènes en date ou en numéro lorsque ces feuilles sont ouvertes avec Excel, LibreOffice Calc ou OpenOffice Calc »
Les cartes mères LGA 1851 équipées du chipset Intel B860 commencent à apparaître. La ROG… Lire d'avantage
L’utilitaire GPU-Z évolue en version 2.61. Le focus concerne la prise en charge de nouveaux… Lire d'avantage
Les premières informations sur la GeForce RTX 5070 Ti, prévue pour début 2025, indiquent des… Lire d'avantage
Annoncé en mars dernier, le SK hynix Platinum P51 PCIe 5.0 est enfin lancé en… Lire d'avantage
Acer lève le voile sur sa gamme de SSD FA200 PCIe 4.0. Visant le milieu… Lire d'avantage
Kioxia a dévoilé l'Exceria Plus G4, un SSD M.2 NVMe qui promet des débits musclés… Lire d'avantage
Voir commentaires
Ces erreurs de conversion ne sont ni la faute d'Excel ni celle de LibreOffice ou OpenOffice, c'est juste le signe de l'incompétence des rédacteurs et reviewers des articles incriminés. Les méthodes pour éviter ces conversions quand elles n'ont pas lieu d'être, existent depuis longtemps (depuis toujours pour OOo/LO me semble-t-il) et sont expliquées dans le papier de 2004. Pour la plupart des utilisateurs, ces conversions automatiques sont très utiles et permettent de gagner du temps.
Il existe des stages aussi pour apprendre à se servir Excel
Ils ont pas l'air d'avoir le gène de l'informatique . :)
C'est clair, ce n'est pas du tout un bug d'excel qui lit les quelques premières lignes de données pour savoir quel format leur appliquer. Suffit de savoir utiliser Excel correctement. Une formation des scientifiques, rédacteurs d'article et chercheurs me semble nécessaire pour qu'il n'écrivent pas n'importe quoi !!!!!!!