MAJ le 10/07/2023.
Intel a repris les livraisons des processeurs affectés par ce problème suite à la publication d’un correctif logiciel. Le géant du processeur précise
La semaine dernière, nous vous avons informé (Tom’s Hardware) d’un problème sur un sous-ensemble de processeurs Intel Xeon Medium Core Count de 4e génération (SPR-MCC) qui pourrait interrompre le fonctionnement du système dans certaines conditions. Par excès de prudence, nous avons temporairement suspendu certaines expéditions le temps de mettre en œuvre une atténuation au travers du micrologiciel. Nous sommes maintenant convaincus que l’atténuation du micrologiciel résout le problème. Nous avons repris l’expédition de toutes les versions de SPR-MCC et travaillons avec les clients pour déployer ce nouveau firmware en cas de besoin.
Intel ne donne aucun détail sur la nature de ce correctif. Il est seulement précisé qu’il n’a pas d’impact sur les performances.
Article du 30 juin 2023 à 11h 03 min
Une défaillance a obligé Intel a suspendre les expéditions de certains de ses processeurs Xeon Sapphire Rapids de quatrième génération. Pour l’instant aucune date d’un retour à la normale n’est connue.
La découverte de ce situation s’est déroulée en plusieurs temps et vient de devenir officielle suite à une déclaration d’Intel. Depuis plusieurs jours les indices indiquant qu’Intel avait suspendu les expéditions de certaines de ses puces Xeon Sapphire se sont multipliés. Dylan Patel, analyste en chef chez SemiAnalysis a déclaré que ces expéditions étaient suspendues depuis la mi-juin. Interrogé par nos confrères de chez Tom’s Hardware, Intel a confirmé cette situation en précisant
Nous avons pris connaissance d’un problème sur un sous-ensemble de processeurs Intel Xeon Medium Core Count de 4e génération (SPR-MCC) qui pourraient interrompre le fonctionnement du système dans certaines conditions et nous l’étudions activement. Ce problème n’a pas été observé lors de l’exécution de logiciels disponibles dans le commerce et d’autres références de processeur Intel Xeon de 4e génération (XCC et HBM) n’ont pas présenté le problème. Par excès de prudence, nous avons temporairement suspendu certaines livraisons de SPR MCC pendant que nous gagnions confiance dans l’atténuation attendue du micrologiciel et prévoyons de publier les livraisons restantes sous peu.
Les processeurs Sapphire Rapids s’appuient sur deux types de conceptions :
- le package XCC, qui utilise quatre tuiles de calcul (puce) pour créer une seule puce,
- le package MCC, qui utilise une seule puce monolithique.
La conception MCC donnent naissance à des offres disposant au maximum de 32 cœurs tandis l’approche XCC se retrouve dans les solutions Halo entre 36 et 60 cœurs.
Selon Dylan Patel Intel est confronté à des problèmes avec ses solutions Sapphire Rapids MCC et a stoppé la livraison des références à 2 et 4 sockets. Du coté d’Intel il n’y aucune confirmation que cette défaillance se limite à ces puces. La firme parle d’un problème, sans préciser sa nature, limité à un « sous-ensemble » de références. Le groupe stipule cependant qu’une solution « logicielle », apparemment en validation, est envisagée ce qui permettrait d’éviter le remplacement des processeurs concernés déjà sur le terrain.
De manière plus générale cette génération Sapphire Rapids a souffert de problème de méthodologie de conception et de validation qui ont entraîné des retards en raison de nombreuses nouvelles étapes (refonte mineure qui nécessite une nouvelle version de la puce pour corriger le ou les problèmes). Les rumeurs évoquent 12 étapes pour certaines références Sapphire Rapids, un nombre élevé sachant qu’en général trois étapes au maximum sont nécessaires). Intel a fait savoir qu’une approche différente est désormais adoptée autour des phases de conception, de simulation et de validation. Elle sera à l’œuvre pour la prochaine génération de processeurs Xeon (Emerald Rapids).
Soulignons que les puces complexes ont des bugs connus et inconnus qui sont résolus par des solutions logicielles (micrologiciel, drivers et applications). Il n’y a rien de surprenant. La génération de processeurs Skylake d’Intel a été livrée avec 53 erreurs connues et six mois plus tard, Intel a répertorié 40 autres problèmes. Récemment se sont les puces EPYC Rome d’AMD qui ont été concernées par un plantage après 1 044 jours de disponibilité.
Par contre il est rare que de tels bugs entrainent un arrêt des expéditions.
Source: Tom’s Hardware