AMD confirme un souci avec ses processeurs EPYC de deuxième génération basée sur la micro architecture Zen 2. Après un peu plus de 1000 jours un cœur de ces puces peut ne plus sortir de l’état de veille CC6.
La durée exacte est de 1044 jours soit environ 34 mois ou encore un peu moins de trois ans. Selon plusieurs retours publiés sur Reddit et Twitter la période réelle est de 1042 jours et 12 heures exactement. AMD explique que cette défaillance peut varier en fonction du spectre étalé et de la fréquence REFCLK, cette dernière étant l’horloge de référence qui aide la puce à suivre le temps. L’unique solution est de couper l’alimentation afin de réinitialiser le compter à zero.
Le plus intéressant dans ce bug est qu’il a été découvert car des nombreux systèmes équipés de processeurs EPYC de deuxième génération fonctionnent depuis presque trois ans sans jamais avoir été redémarré une seul fois. C’est inquiétant car cela veut dire que leur maintenance est inexistence. Aucune mise à jour et aucun correctif nécessitant un redémarrage pour terminer leur installation n’a été installé.
AMD ne prévoit pas de corriger le bogue « CC6 ». La solution proposée est de désactiver cet état pour éviter que les cœurs n’entrent en mode “zombie” après plusieurs années de fonctionnement. L’autre approche est de redémarrer le système de temps en temps.
“C’est inquiétant car cela veut dire que leur maintenance est inexistence.”
Pas nécessairement car un système BSD/Linux n’a pas besoin de rédémarrer
pour appliquer une MAJ contrairement à Windaube.
“Aucune mise à jour et aucun correctif nécessitant un redémarrage pour
terminer leur installation n’a été installé.”
Cela reste à vérifier et quand bien même cela aurait été le cas, cela
n’a pratiquement aucune incidence sur une machine hors ligne
(e.g. superordinateur à usage militaire).
En revanche, ce bogue démontre que les processeurs AMD ne sont pas
qualifiés pour usage critique (i.e. militaire).
Tu as quand-même besoin de démarrer sur tollé nouveau noyau.