Une défaillance a obligé Intel a suspendre les expéditions de certains de ses processeurs Xeon Sapphire Rapids de quatrième génération. Pour l’instant aucune date d’un retour à la normale n’est connue.
La découverte de ce situation s’est déroulée en plusieurs temps et vient de devenir officielle suite à une déclaration d’Intel. Depuis plusieurs jours les indices indiquant qu’Intel avait suspendu les expéditions de certaines de ses puces Xeon Sapphire se sont multipliés. Dylan Patel, analyste en chef chez SemiAnalysis a déclaré que ces expéditions étaient suspendues depuis la mi-juin. Interrogé par nos confrères de chez Tom’s Hardware, Intel a confirmé cette situation en précisant
Nous avons pris connaissance d’un problème sur un sous-ensemble de processeurs Intel Xeon Medium Core Count de 4e génération (SPR-MCC) qui pourraient interrompre le fonctionnement du système dans certaines conditions et nous l’étudions activement. Ce problème n’a pas été observé lors de l’exécution de logiciels disponibles dans le commerce et d’autres références de processeur Intel Xeon de 4e génération (XCC et HBM) n’ont pas présenté le problème. Par excès de prudence, nous avons temporairement suspendu certaines livraisons de SPR MCC pendant que nous gagnions confiance dans l’atténuation attendue du micrologiciel et prévoyons de publier les livraisons restantes sous peu.
Les processeurs Sapphire Rapids s’appuient sur deux types de conceptions :
- le package XCC, qui utilise quatre tuiles de calcul (puce) pour créer une seule puce,
- le package MCC, qui utilise une seule puce monolithique.
La conception MCC donnent naissance à des offres disposant au maximum de 32 cœurs tandis l’approche XCC se retrouve dans les solutions Halo entre 36 et 60 cœurs.
Selon Dylan Patel Intel est confronté à des problèmes avec ses solutions Sapphire Rapids MCC et a stoppé la livraison des références à 2 et 4 sockets. Du coté d’Intel il n’y aucune confirmation que cette défaillance se limite à ces puces. La firme parle d’un problème, sans préciser sa nature, limité à un « sous-ensemble » de références. Le groupe stipule cependant qu’une solution « logicielle », apparemment en validation, est envisagée ce qui permettrait d’éviter le remplacement des processeurs concernés déjà sur le terrain.
De manière plus générale cette génération Sapphire Rapids a souffert de problème de méthodologie de conception et de validation qui ont entraîné des retards en raison de nombreuses nouvelles étapes (refonte mineure qui nécessite une nouvelle version de la puce pour corriger le ou les problèmes). Les rumeurs évoquent 12 étapes pour certaines références Sapphire Rapids, un nombre élevé sachant qu’en général trois étapes au maximum sont nécessaires). Intel a fait savoir qu’une approche différente est désormais adoptée autour des phases de conception, de simulation et de validation. Elle sera à l’œuvre pour la prochaine génération de processeurs Xeon (Emerald Rapids).
Soulignons que les puces complexes ont des bugs connus et inconnus qui sont résolus par des solutions logicielles (micrologiciel, drivers et applications). Il n’y a rien de surprenant. La génération de processeurs Skylake d’Intel a été livrée avec 53 erreurs connues et six mois plus tard, Intel a répertorié 40 autres problèmes. Récemment se sont les puces EPYC Rome d’AMD qui ont été concernées par un plantage après 1 044 jours de disponibilité.
Par contre il est rare que de tels bugs entrainent un arrêt des expéditions.
Source: Tom’s Hardware
“le package MCC, qui utilise une seule puce monolithique.”
“La conception MCC donnent naissance à des offres disposant au maximum
de 32 coeurs tandis l’approche XCC se retrouve dans les solutions Halo
entre 36 et 60 coeurs.
“Selon Dylan Patel Intel est confronté à des problèmes avec ses
solutions Sapphire Rapids MCC et a stoppé la livraison des références
à 2 et 4 sockets.”
Tout porte à croire qu’il s’agit d’un problème de gravure car entre
4 plaquettes de 15 coeurs et 1 plaquette de 32 coeurs à taux de défaut
fixé, la probabilité qu’une plaquette soit défaillante est bien plus
forte pour la seconde option.
“Soulignons que les puces complexes ont des bugs connus et inconnus qui
sont résolus par des solutions logicielles (micrologiciel, drivers et
applications). Il n’y a rien de surprenant.”
Sauf qu’un bogue matériel cela s’appelle tout simplement un défaut de
conception et malheureusement aucun correctif logiciel ne peut résoudre
un défaut de conception pour un processeur informatique autant qu’un
avion de ligne (cf. bride logicielle pour protéger les ailes en mousse
de Boeing 737 MAX).