Annonce de l'architecture NVIDIA Blackwell et des accélérateurs B200/B100 : aller plus grand avec des données plus petites

Déjà solidement aux commandes du marché des accélérateurs d'IA génératifs à l'heure actuelle, NVIDIA a clairement indiqué depuis longtemps que l'entreprise n'était pas sur le point de ralentir et de vérifier la vue. Au lieu de cela, NVIDIA a l'intention de continuer à parcourir sa feuille de route de produits multigénérationnelle pour les GPU et les accélérateurs, afin de tirer parti de son avantage initial et de garder une longueur d'avance sur sa coterie toujours croissante de concurrents sur le marché des accélérateurs. Ainsi, alors que les séries d'accélérateurs ridiculement populaires H100/H200/GH200 de NVIDIA sont déjà les plus prisées de la Silicon Valley, il est déjà temps de parler de l'architecture d'accélérateur de nouvelle génération pour nourrir les ambitions de NVIDIA en matière d'IA : Blackwell.

Au milieu des premiers GTC en personne depuis 5 ans – NVIDIA n'en a pas organisé depuis que Volta était en vogue – le PDG de NVIDIA, Jensen Huang, monte sur scène pour annoncer une liste de nouveaux produits et technologies d'entreprise que la société a sur lequel nous avons travaillé dur ces dernières années. Mais aucune de ces annonces n'est aussi accrocheuse que les annonces de puces de serveur de NVIDIA, car c'est la puce GH100 à architecture Hopper et la pile logicielle approfondie de NVIDIA qui s'exécute dessus qui ont fait sauter le couvercle de l'industrie des accélérateurs d'IA et ont fait de NVIDIA le troisième entreprise la plus valorisée au monde.

Mais le seul problème pour créer un produit révolutionnaire dans l’industrie technologique est qu’il faut recommencer. Tous les regards sont donc tournés vers Blackwell, l’architecture d’accélérateur NVIDIA de nouvelle génération qui devrait être lancée plus tard en 2024.

Nommée d'après le Dr David Harold Blackwell, un pionnier américain des statistiques et des mathématiques qui, entre autres choses, a écrit le premier manuel de statistiques bayésiennes, l'architecture Blackwell est une fois de plus une fois de plus NVIDIA qui double la mise en œuvre de nombreuses conceptions architecturales de marque de l'entreprise, cherchant à trouver des moyens travailler plus intelligemment et plus dur afin d'améliorer les performances de leurs très importants accélérateurs de centre de données/HPC. NVIDIA a une très bonne chose avec Hopper (et Ampere avant lui), et à un niveau élevé, Blackwell vise à apporter plus de la même chose, mais avec plus de fonctionnalités, plus de flexibilité et plus de transistors.

Comme je l'ai écrit lors du lancement de Hopper, « NVIDIA a développé un manuel très solide sur la manière d'aborder le secteur des GPU pour serveurs. Sur le plan matériel, cela se résume essentiellement à identifier correctement les tendances actuelles et futures ainsi que les besoins des clients en matière d'accélérateurs hautes performances, à investir dans le matériel nécessaire pour gérer ces charges de travail à grande vitesse, puis à optimiser tout cela. .» Et cette mentalité n’a pas changé pour Blackwell. NVIDIA a amélioré tous les aspects de la conception de ses puces, des performances à la bande passante mémoire, et chaque élément vise à améliorer les performances dans une charge de travail/scénario spécifique ou à supprimer un goulot d'étranglement à l'évolutivité. Et, une fois de plus, NVIDIA continue de trouver de nouvelles façons de réduire le travail.

Avant le discours d'aujourd'hui (qui devrait encore être en cours au moment où vous lisez ces lignes), NVIDIA a proposé à la presse un pré-briefing limité sur l'architecture Blackwell et la première puce à l'implémenter. Je dis « limité » car il y a un certain nombre de spécifications clés que la société ne révèle pas avant le discours, et même le nom du GPU lui-même n'est pas clair ; NVDIA l'appelle simplement le « GPU Blackwell ». Mais voici un aperçu de ce que nous savons jusqu'à présent sur le cœur de la prochaine génération d'accélérateurs NVIDIA.

Comparaison des spécifications de l'accélérateur phare NVIDIA
B200 H100 A100 (80 Go)
Cœurs FP32 CUDA Beaucoup 16896 6912
Noyaux tenseurs Autant que possible 528 432
Augmenter l'horloge Vers la Lune 1,98 GHz 1,41 GHz
Horloge mémoire 8 Gbit/s HBM3E 5,23 Gbit/s HBM3 3,2 Gbit/s HBM2e
Largeur du bus mémoire 2x 4096 bits 5120 bits 5120 bits
Bande passante mémoire 8 To/sec 3,35 To/sec 2 To/s
VRAM 192 Go
(2x 96 Go)
80 Go 80 Go
Vecteur FP32 ? TFLOPS 67 TFLOPS 19,5 TFLOPS
Vecteur FP64 ? TFLOPS 34 TFLOPS 9.7 TFLOPS
(tarif 1/2 FP32)
Tenseur FP4 9PFLOPS N / A N / A
Tenseur INT8/FP8 4500 T(FL)OPS 1980 HAUTS 624 HAUTS
Tenseur FP16 2250 TFLOPS 990 TFLOPS 312 TFLOPS
Tenseur TF32 1100 TFLOPS 495 TFLOPS 156 TFLOPS
Tenseur FP64 40 TFLOPS 67 TFLOPS 19,5 TFLOPS
Interconnexion NVLink 5
? Liens (1 800 Go/s)
NVLink 4
18 liens (900 Go/s)
NVLink 3
12 liens (600 Go/s)
GPU « GPU Blackwell » GH100
(814mm2)
GA100
(826mm2)
Nombre de transistors 208B (2x104B) 80B 54.2B
PDT 1000W 700W 400W
Processus de fabrication TSMC4NP TSMC4N TSMC7N
Interface SXM SXM5 SXM4
Architecture Puits noir Trémie Ampère

Chiffres de débit tensoriel pour les opérations denses/non clairsemées, sauf indication contraire

La première chose à noter est que le GPU Blackwell va être gros. Littéralement. Les modules B200 dans lesquels il sera intégré comporteront deux puces GPU sur un seul boîtier. C'est vrai, NVIDIA est enfin passé au chiplet avec son accélérateur phare. Bien qu'ils ne divulguent pas la taille de chaque matrice, on nous dit qu'il s'agit de matrices « de la taille d'un réticule », ce qui devrait les placer à plus de 800 mm2 chacune. La puce GH100 elle-même approchait déjà des limites de réticule de 4 nm de TSMC, il y a donc très peu de place pour NVIDIA pour se développer ici – du moins sans rester dans une seule puce.

Curieusement, malgré ces contraintes d'espace de puce, NVIDIA n'utilise pas deNœud TSMC de classe 3 nmpour Blackwell. Techniquement, ils utilisent un nouveau nœud – TSMC 4NP – mais il ne s'agit que d'une version plus performante du nœud 4N utilisé pour le GPU GH100. Ainsi, pour la première fois depuis longtemps, NVIDIA ne parvient pas à exploiter les avantages en termes de performances et de densité d’un nouveau nœud majeur. Cela signifie que pratiquement tous les gains d'efficacité de Blackwell doivent provenir de l'efficacité architecturale, tandis qu'un mélange de cette efficacité et de l'ampleur de l'évolution permettra d'obtenir des gains de performances globaux de Blackwell.

Bien qu'il s'en tienne à un nœud de classe 4 nm, NVIDIA a réussi à intégrer plus de transistors dans une seule puce. Le nombre de transistors pour l’accélérateur complet s’élève à 208B, soit 104B transistors par puce. Le GH100 était constitué de transistors 80B, donc chaque puce B100 contient globalement environ 30 % de transistors en plus, un gain modeste par rapport aux normes historiques. C’est pourquoi NVIDIA utilise davantage de puces pour l’ensemble de son GPU.

Pour sa première puce multi-puces, NVIDIA a l'intention d'éviter la phase délicate des « deux accélérateurs sur une seule puce » et de passer directement au comportement de l'accélérateur entier comme une seule puce. Selon NVIDIA, les deux puces fonctionnent comme « un seul GPU CUDA unifié », offrant des performances complètes sans compromis. La clé de cela est la liaison E/S à large bande passante entre les puces, que NVIDIA appelle NV-High Bandwidth Interface (NV-HBI), et offre 10 To/seconde de bande passante. Vraisemblablement, c’est global, ce qui signifie que les matrices peuvent envoyer 5 To/seconde dans chaque direction simultanément.

Ce qui n'a pas été détaillé jusqu'à présent, c'est la construction de ce lien – si NVIDIA s'appuie partout sur Chip-on-Wafer-on-Substrate (CoWoS), en utilisant une stratégie de puce de base (AMD MI300), ou s'ils s'appuient sur un interposeur local séparé juste pour relier les deux matrices (ala UltraFusion d'Apple). Quoi qu'il en soit, il s'agit d'une bande passante nettement supérieure à toute autre solution de pont à deux puces que nous avons vue jusqu'à présent, ce qui signifie que de nombreuses broches sont en jeu.

Sur le B200, chaque puce est associée à 4 piles de mémoire HBM3E, pour un total de 8 piles au total, formant une largeur effective de bus mémoire de 8 192 bits. L'un des facteurs contraignants de tous les accélérateurs d'IA a été la capacité de mémoire (pour ne pas sous-estimer également le besoin de bande passante), donc pouvoir placer plus de piles est énorme pour améliorer la capacité de mémoire locale de l'accélérateur. Au total, le B200 offre 192 Go de HBM3E, soit 24 Go/pile, ce qui est identique à la capacité de 24 Go/pile du H200 (et 50 % de mémoire en plus que les 16 Go/pile d'origine du H100).

Selon NVIDIA, la puce dispose d'une bande passante mémoire HBM globale de 8 To/seconde, ce qui équivaut à 1 To/seconde par pile – ou un débit de données de 8 Gbit/s/broche. Comme nous l'avons noté dans notrecouverture HBM3E précédente, la mémoire est finalement conçue pour aller à 9,2 Gbps/pin ou mieux, mais nous voyons souvent NVIDIA jouer les choses de manière un peu conservatrice sur les vitesses d'horloge de leurs accélérateurs de serveur. Quoi qu'il en soit, cela représente près de 2,4 fois la bande passante mémoire du H100 (soit 66 % de plus que le H200), NVIDIA constate donc une augmentation significative de la bande passante.

Enfin, nous n'avons pour l'instant aucune information sur le TDP d'un seul accélérateur B200. Sans aucun doute, ce sera élevé – vous ne pouvez pas plus que doubler vos transistors dans un monde post-Dennard sans payer une sorte de pénalité de puissance. NVIDIA vendra à la fois des systèmes DGX refroidis par air et des racks NVL72 refroidis par liquide, le B200 n'est donc pas au-delà du refroidissement par air, mais en attendant la confirmation de NVIDIA, je ne m'attends pas à un petit nombre.

Dans l'ensemble, par rapport au H100au niveau du cluster, NVIDIA vise une multiplication par 4 des performances d'entraînement et une multiplication par 30 encore plus massive des performances d'inférence, tout en offrant une efficacité énergétique 25 fois supérieure. Nous aborderons certaines des technologies derrière cela au fur et à mesure, et davantage sur la façon dont NVIDIA a l'intention d'y parvenir sera sans aucun doute révélé dans le cadre du discours d'ouverture.

Mais le point le plus intéressant à retenir de ces objectifs est l’augmentation des performances d’interférence. NVIDIA règne actuellement en maître en matière de formation, mais l'inférence constitue un marché beaucoup plus vaste et plus compétitif. Cependant, une fois ces grands modèles entraînés, encore plus de ressources de calcul seront nécessaires pour les exécuter, et NVIDIA ne veut pas être en reste. Mais cela signifie trouver un moyen de prendre (et de conserver) une avance convaincante sur un marché beaucoup plus féroce, donc NVIDIA a du pain sur la planche.

Moteur de transformateur de deuxième génération : des précisions encore plus faibles

L'une des grandes victoires de NVIDIA avec Hopper, sur le plan architectural, a été la décision d'optimiser son architecture pour les modèles de type transformateur avec l'inclusion de matériel spécialisé – que NVIDIA appelle son Transformer Engine. En profitant du fait que les transformateurs n'ont pas besoin de traiter tous leurs poids et paramètres avec une haute précision (FP16), NVIDIA a ajouté la prise en charge du mélange de ces opérations avec des opérations de moindre précision (FP8) pour réduire les besoins en mémoire et améliorer débit. Il s’agit d’une décision qui a porté ses fruits lorsque GPT-3/ChatGPT a décollé plus tard en 2022, et le reste appartient à l’histoire.

Pour son moteur de transformateur de deuxième génération, NVIDIA va donc dans les limbes encore plus bas. Blackwell sera capable de gérer des formats de nombres jusqu'à la précision FP4 – oui, un format de nombres à virgule flottante avec seulement 16 états – en vue d'utiliser le format de très faible précision pour l'inférence. Pendant ce temps, NVIDIA envisage de faire davantage de formation au FP8, ce qui maintiendra à nouveau un débit de calcul élevé et une faible consommation de mémoire.

Les transformateurs ont montré une capacité intéressante à gérer des formats de moindre précision sans trop perdre en précision. Mais le FP4 est pour le moins assez faible. En l'absence d'informations complémentaires, je suis extrêmement curieux de savoir comment NVIDIA et ses utilisateurs entendent répondre à leurs besoins de précision avec une précision de données aussi faible, car le FP4 étant utile pour l'inférence semble être ce qui fera ou détruira le B200 en tant que plate-forme d'inférence.

Dans tous les cas, NVIDIA s'attend à ce qu'un seul accélérateur B200 soit capable d'offrir jusqu'à 10 PetaFLOPS de performances FP8 – ce qui, en supposant l'utilisation de la parcimonie, représente environ 2,5 fois le taux du H100 – et 20 PFLOPS encore plus absurdes de performances FP4 à des fins d'inférence. . Le H100 ne bénéficie même pas de FP4, donc par rapport à sa taille de données minimale FP8, le B200 devrait offrir une multiplication par 5 du débit d'inférence brut lorsque FP4 peut être utilisé.

Et en supposant que les ratios de performances de calcul de NVIDIA restent inchangés par rapport au H100, les performances du FP16 étant la moitié de celles du FP8, et en diminuant à partir de là, le B200 se révèle également être une puce très puissante avec des précisions plus élevées. Mais au moins pour les utilisations de l’IA, l’objectif est clairement d’essayer de s’en tirer avec la précision la plus basse possible.

À l’autre extrémité du spectre, ce qui reste également non divulgué avant le discours d’ouverture est la performance du tenseur FP64. NVIDIA propose des capacités de tenseur FP64 depuis son architecture Ampere, bien qu'à un rythme bien réduit par rapport aux précisions inférieures. Ceci est peu utile pour la grande majorité des charges de travail d’IA, mais est bénéfique pour les charges de travail HPC. Je suis donc curieux de voir ce que NVIDIA a prévu ici – si le B200 aura beaucoup de capacités HPC, ou si NVIDIA a l'intention de se lancer à fond dans l'IA de faible précision.

Article original