GeForce RTX 3070 et l’architecture Ampere
Au cœur de cette GeForce RTX 3070, nous retrouvons l’architecture Ampere. Elle a été lancée deux ans après Turing qui pour la première fois a proposé une prise en charge du Ray Tracing en temps réel dans les jeux vidéo et la technologie DLSS.
Ampere permet à Nvidia de déployer des ajustements, des optimisations et des améliorations. L’objectif est simple. Il consiste à mieux s’armer pour le Ray-Tracing tout en proposant une hausse conséquente de la puissance.
La gamme des GeForce RTX 3000 series se compose, à l’heure d’écriture de ce test, de trois modèles exploitant deux GPU différents. Nous retrouvons un GA104 au cœur de la GeForce RTX 3070 et un GA102 dans les mécaniques des GeForce RTX 3080 et 3090. Ce dernier n’est naturellement pas identique car les deux cartes ne proposent pas les mêmes prestations et ne sont pas positionnées au même tarif.
La GeForce RTX 3090 prend vie grâce à un GA102-300 tandis que sa petite sœur, la GeForce RTX 3080, grâce à un GA102-200. La gravure est du 8 nm (technologie Samsung) et la puce offre une surface de die de 628 mm2 pour un total de 28 milliards de transistors. La différence se fait au niveau de l’équipement activé ou non. Nous parlons des GPC et des SM. Nvidia fait en quelque sorte sa « petite salade » afin de calibrer chaque solution à un niveau de puissance particulier. Nous sommes un peu comme dans le monde de l’automobile avec un moteur en commun mais des puissances en sortie différentes.
Ainsi, la RTX 3080 dispose de 6 GPCs et 68 SMs là où la RTX 3090 dispose de 7 GPCs et 82 SMs. Ces choix architecturaux permettent de proposer au final 10 496 cœurs Cuda et 328 Cœurs Tensor et 82 cœurs RT pour la 3090 et 8 704 cœurs Cuda, 272 coeurs Tensor et 68 cœurs RT pour la 3080.
A titre de comparaison, l’ancienne vitrine de Nvidia sur le segment « Mainstream », la GeForce RTX 2080 Ti, s’équipe de 6 GPcs, 68 SMs soit 4352 cœurs Cuda, 544 cœurs Tensor et 68 cœurs RT.
Concernant la GeForce RTX 3070, nous retrouvons un GPU équipé de 46 SMs, 5 888 cœurs Cuda, 184 cœurs Tensor de troisième génération, 46 cœurs RT de 2ème génération de 184 unités de texture et de 96 ROPS. Du coté de la fréquence, la version Founder Edition est calibrée à 1725 MHz en mode boost et ses 8 Go de GDDR6 turbinent à 7000 MHz. L’ensemble est exploité au travers d’un bus mémoire 256-bits. Nous retrouvons une bande passante de 448 Go/s et une enveloppe thermique (TGP) de 220 Watts. Voici un bilan face à son ainée, la GeForce RTX 2070 (Founder Edition).
GeForce RTX 3070 – Les spécifications de référence
GeForce RTX 2070 (Founders Edition) | GeForce RTX 3070(Founders Edition) | |
SMs | 36 | 46 |
Cœurs Cuda | 2304 | 5888 |
Cœurs Tensor | 288 (2nd Generation) | 184 (3rd Generation) |
Cœurs RT | 36 (1st Generation) | 46(2nd Generation) |
Unités de textures | 144 | 184 |
ROPs | 64 | 96 |
Fréquence GPU (Boost) | 1710 MHz | 1725 MHz |
Fréquence mémoire | 7000 MHz | 7000 MHz |
Mémoire vidoé | 8192 MB GDDR6 | 8192 MB GDDR6 |
Interface mémoire | 256-bit | 256-bit |
Bande passante mémoire | 448 GB/s | 448 GB/s |
TGP | 185 Watts | 220 Watts |
Sur le papier, nous avons une solide montée en puissance entre les deux cartes. Si la RTX 2070 est annoncée avec une puissance conjuguée de 31,7 TFLOPS (7,9 Shader-TFLOPS + 23,8 RT-TFLOPS), la GeForce RTX 3070 est à 60 TFLOPS (20,2 Shader-TFLOPS + 39,7 RT-TFLOPS).
Nvidia ne s’est pas contenté d’ajuster l’équipement. Nous avons des améliorations et des optimisations autour des trois grands moteurs, à savoir les cœurs RT et Tensor et les SM (Streaming Multiprocessors).
Ampere s’équipe de cœurs Tensor de troisième génération. Exploités pour différents exercices dont la mise en œuvre de la technologie DLSS, ils profitent d’une efficacité plus importante afin d’accroitre d’un facteur 2 ou 4 la puissance de calcul tout en diminuant leur nombre par deux. Le DLSS est la contraction de Deep Learning Super Sampling. Introduit pour la première fois avec Turing (RTX 20 series), cette technologie de rendu exploite les cœurs Tensor dédiés à l’IA. Elle exploite la puissance d’un réseau optimisé de neurones profonds pour accélérer les fréquences d’images tout en générant des visuels sans dégradation. Les gains de performance permettent de maximiser les paramètres du ray tracing et de profiter de définitions plus élevées.
Les cœurs RT en charge d’assurer une prise en charge matérielle du Ray-Tracing passent en deuxième génération. Nous n’avons pas beaucoup d’information autour de ce changement. Le constructeur évoque une efficacité plus importante et une accélération matérielle disponible en parallèle à l’application du Motion Blur (effet de flou).
Au sujet des Streaming Multiprocessors, nous avons une organisation autour de quatre clusters équipés chacun de 32 unités de calculs dont 16 sont exclusivement dédiées aux opérations FP32. Ainsi chaque SM peut traiter simultanément 4 x 32 opérations FP32 ou 4 x 16 opérations FP32 et 4 x 16 opérations INT32 (entiers). A cela, le cache L1 grimpe à 128 Ko (64 Ko par SM avec Turing).
Du coté des nouveautés, nous avons la prise en charge du codec AV1 en décompression. Il s’agit d’une avancée intéressante car ce format commence à prendre de l’importance dans le monde du streaming. Ses promesses de compression pour la diffusion de contenu permettent de réduire les besoins en bande passante tout en assurant une qualité de rendu en hausse.
AV1 – Wikipedia
AV1 est un codec vidéo ouvert et libre de droits1 créé en 2018 et conçu pour la diffusion de flux vidéo sur Internet et réseaux IP comme successeur de VP9. (…) Il peut atteindre un taux de compression supérieur de 30 à 40 % en moyenne à VP9 et H.265/HEVC et supérieur de 50 % à H.264, le codec vidéo le plus répandu pour le streaming en 2019. AV1 permet donc de diviser par deux l’utilisation de la bande passante par rapport au H.264 mais, en contrepartie, l’implémentation de référence (libaom) consomme nettement plus de ressources de calcul que VP9 et H264, tant pour le codage que pour le décodage. Néanmoins, le développement de libaom a privilégié la correction et l’exhaustivité vis-à-vis du standard, au détriment de l’efficacité ; d’autres implémentations améliorent significativement les performances.
Ampere reprend ainsi l’encodeur « maison » de 7ème génération présent sur Turing mais s’enrichit d’un décodeur de 5ème génération assurant la prise en charge de l’AV2. Nous avons ainsi en encodage la prise en charge des Codecs H.264, H.265 et LossLess et le décodage des codecs AV1, MPEG-2, VC1, VP8, VP9, H.264, H.265 et Lossless.
A cela s’ajoute un port HDMI 2.1 capable d’assurer un débit maximal de 48 Gbps, de quoi prendre ne charge un moniteur disposant d’une définition 8K à un taux de rafraichissement de 60 Hz en HDR.
Technologie RTX IO.
Nvidia a évoqué d’autres axes de travail pour proposer une expérience « gaming » améliorée. L’un d’eux concerne les temps de chargement avec la présentation de la technologie RTX IO. Elle s’appuie sur l’API Directx Storage de Microsoft (2021). L’idée est d’éviter les goulots d’étranglement lors du transport des données de jeux compressées.
La solution est de trouver un moyen de se passer du processeur (CPU). Ce dernier assure actuellement la décompression de ses données compressées puis leur envoi au processeur graphique, le GPU. Avec son RTX IO, Nvidia souhaite confier cette tâche de décompression au GPU directement. Cela limite les transports de données et le nombre d’intervenants (CPU et RAM) afin d’accélérer de manière importante le temps de chargement des jeux. Il faut dire que les titres AAA sont de plus en plus exigeants nécessitant le pré-traitement d’énormes quantités de données.
L’apport du RTX IO sera lié aux performances de l’unité de stockage. En clair, pour profiter des meilleurs gains possibles, une unité SSD rapide est nécessaire. Elle permet des débits plus élevés et donc des temps de chargement plus courts. Du coup, il n’est pas impossible que dans un avenir proche les recommandations matérielles de jeux incluent des caractéristiques minimum pour les SSD.
Cette technologie n’est pas propre à Ampere. Les GeForce RTX 2000 series seront aussi compatibles, tout comme les GeForce GTX 1600 series. Son exploitation demandera une mise à jour des pilotes.
Technologies Reflex et Broadcast
Lors de la présentation d’Ampere, Nvidia a abordé d’autres nouveautés. Par exemple, Reflex vise les joueurs. Cette technologie œuvre à réduire la latence dans les jeux. Elle est censée assurer une réponse « in game » plus rapide afin d’être plus efficace et précis.
Enfin le constructeur a présenté Broadcast. Il concerne le streaming. Nous avons d’un côté un encodeur matériel dédié à la diffusion et de l’autre l’utilisation de la mécanique des cartes RTX pour l’IS afin d’améliorer la qualité du son et de l’image (suppression du bruit audio, effets d’arrière-plan ou encore auto-frame de la webcam.)
Comme toujours super test 🙂 je vais craqué !
C’est vrai…c’est complet, plus de jeux peut-être ?
Moins de test , plus de dispo !