Architecture Ampere
Deux ans après Turing, Nvidia revient sur le devant de la scène avec Ampere. Cette architecture GPU s’accompagne de changements, d’optimisations et d’améliorations. Comme nous l’avons souligné en introduction, Ampere ne propose pas de révolution. L’objectif est autre face à une concurrence qui s’arme en matière de Ray-Tracing et probablement de puissance.
Nvidia retravaille des éléments clés tout en profitant d’une gravure plus fine. La gamme des GeForce RTX 3000 series se compose pour le moment de trois modèles exploitant deux GPU différents. Nous retrouvons un GA104 au cœur de la GeForce RTX 3070 et un GA102 dans les mécaniques des GeForce RTX 3080 et 3090. Ce dernier n’est naturellement pas identique car les deux cartes ne proposent pas les mêmes prestations et ne sont pas positionnées au même tarif.
La GeForce RTX 3090 prend vie grâce à un GA102-300 tandis que sa petite sœur la GeForce RTX 3080 grâce à un GA102-200. La gravure est du 8 nm (technologie Samsung) tandis que la puce offre une surface de die de 628 mm2 pour un total de 28 milliards de transistors. La différence se fait au niveau de l’équipement activé ou non. Nous parlons des GPC et des SM. Nvidia fait en quelque sorte sa « petite salade » afin de calibrer chaque solution à un niveau de puissance particulier. Nous sommes un peu comme dans le monde de l’automobile avec un moteur en commun mais des puissances en sortie différente.
Ainsi, la RTX 3080 dispose de 6 GPCs et 68 SMs là où la RTX 3090 dispose de 7 GPCs et 82 SMs. Ces choix architecturaux permettent de proposer au final 10 496 cœurs Cuda et 328 Cœurs Tensor et 82 cœurs RT pour la 3090 et 8 704 cœurs Cuda, 272 coeurs Tensor et 68 cœurs RT pour la 3080.
A titre de comparaison, l’ancienne vitrine de Nvidia sur le segment « Mainstream », la GeForce RTX 2080 Ti, s’équipe de 6 GPcs, 68 SMs soit 4352 cœurs Cuda, 544 cœurs Tensor et 68 cœurs RT.
Nous observons ainsi une montée en puissance de l’équipement avec Ampere, ce qui sur le papier se concrétise par une puissance en progression et de nouvelles opportunités en gaming, en particulier autour du 4K. Nous en reparlerons un peu plus bas dans cet article.
Nvidia ne s’est pas contenté d’ajuster l’équipement. Nous avons aussi des améliorations et des optimisations autour des trois grands moteurs, à savoir les cœurs RT et Tensor et les SM (Streaming Multiprocessors).
Sans trop entrer dans les détails, l’architecture Ampere s’équipe de cœurs Tensor de troisième génération. Exploités pour différents exercices dont la mise en œuvre de la technologie DLSS, ils profitent d’une efficacité plus importante afin d’accroitre d’un facteur 2 ou 4 la puissance de calcul tout en diminuant leur nombre par deux.
Les cœurs RT en charge d’assurer une prise en charge matérielle du Ray-Tracing passent en deuxième génération. Nous n’avons pas beaucoup d’information autour de ce changement. Le constructeur évoque une efficacité plus importante et une accélération matérielle disponible en parallèle à l’application du Motion Blur (effet de flou).
Enfin concernant les Streaming Multiprocessors, nous avons une organisation autour de quatre clusters équipés chacun de 32 unités de calculs dont 16 sont exclusivement dédiées aux opérations FP32. Ainsi chaque SM peut traiter simultanément 4 x 32 opérations FP32 ou 4 x 16 opérations FP32 et 4 x 16 opérations INT32 (entiers). A cela, le cache L1 grimpe à 128 Ko (64 Ko par SM avec Turing).
Du coté des nouveautés, nous avons la prise en charge du codec AV1 en décompression. Il s’agit d’une avancée intéressante car ce format commence à prendre de l’importance dans le monde du streaming. Ses promesses de compression pour la diffusion de contenu permettent de réduire les besoins en bande passante tout en assurant une qualité de rendu en hausse.
AV1 – Wikipedia
AV1 est un codec vidéo ouvert et libre de droits1 créé en 2018 et conçu pour la diffusion de flux vidéo sur Internet et réseaux IP comme successeur de VP9. (…)
il peut atteindre un taux de compression supérieur de 30 à 40 % en moyenne à VP9 et H.265/HEVC et supérieur de 50 % à H.264, le codec vidéo le plus répandu pour le streaming en 2019. AV1 permet donc de diviser par deux l’utilisation de la bande passante par rapport au H.264 mais, en contrepartie, l’implémentation de référence (libaom) consomme nettement plus de ressources de calcul que VP9 et H264, tant pour le codage que pour le décodage. Néanmoins, le développement de libaom a privilégié la correction et l’exhaustivité vis-à-vis du standard, au détriment de l’efficacité ; d’autres implémentations améliorent significativement les performances.
Ampere reprend ainsi l’encodeur « maisons » de 7ème génération présent sur Turing mais s’enrichit d’un décodeur de 5ème génération assurant la prise en charge de l’AV2. Nous avons ainsi en encodage la prise en charge des Codecs H.264, H.265 et LossLess et le décodage des codecs AV1, MPEG-2, VC1, VP8, VP9, H.264, H.265 et Lossless.
A cela s’ajoute un port HDMI 2.1 capable d’assurer un débit maximal de 48 Gbps, de quoi prendre ne charge un moniteur disposant d’une définition 8K à un taux de rafraichissement de 60 Hz en HDR.
Nvidia a également évoqué d’autres axes de travail pour proposer une expérience « gaming » améliorée. L’un d’eux concerne les temps de chargement avec la présentation de la technologie RTX IO.
Elle s’appuie sur l’API Directx Storage de Microsoft (2021). L’idée est d’éviter les goulots d’étranglement lors du transport des données de jeux compressées. La solution est de trouver un moyen de se passer du processeur (CPU). Ce dernier assure actuellement la décompression de ses données compressées puis leur envoi au processeur graphique, le GPU. Avec son RTX IO, Nvidia souhaite confier cette tâche de décompression au GPU directement. Cela limite les transports de données et le nombre d’intervenants (CPU et RAM) afin d’accélérer de manière importante le temps de chargement des jeux. Il faut dire que les titres AAA sont de plus en plus exigeants nécessitant le prétraitement d’énorme quantité de données.
L’apport du RTX IO sera lié aux performances de l’unité de stockage. En clair pour profiter des meilleurs gains possibles, une unité SSD rapide est nécessaire. Elle permet des débits plus élevés et donc des temps de chargement plus courts. Du coup, il n’est pas impossible que dans un avenir proche les recommandations matérielles de jeux inclus des caractéristiques minimum pour les SSD.
Cette technologie n’est pas propre à Ampere. Les GeForce RTX 2000 series seront aussi compatibles tout comme les GeForce GTX 1600 series. Son exploitation demandera une mise à jour des pilotes.
Enfin, nous retrouvons un nouveau type de mémoire sur les GeForce RTX 3080 et 3080. La RTX 3070 s’équipe de classique GDDR6 et la GDDR6X est présente sur les deux autres modèles.
Elle a été officialisée par Micron au début du mois de septembre 2020. Sa particularité est de profiter d’une modulation du signal P4M4. Sous ce terme savant se cache une solution pour doubler la quantité de données transportées soit de quoi annoncer un débit de 1 To/s et des vitesses dépassant les 19 Gbps contre du 16 Gbps pour la GDDR6. Appliqué à la mécanique des RTX 3080 et 3090 (bus mémoire de 320 et 385-bit), nous avons des bandes passantes mémoire respectives de 760 Go/s et 936 Go/s.
Plus de 400 images par seconde sous Doom en Full HD Full Option….vivement les écrans 360 Hz !
Sacré carte mais…sacré tarif clairement pas grand public
Test complet 🙂