NVIDIA Blackwell Mimarisi ve B200/B100 Hızlandırıcılar Duyuruldu: Daha Küçük Verilerle Büyüyecek

Şu anda üretken yapay zeka hızlandırıcı pazarının sürücü koltuğunda sağlam bir şekilde yer alan NVIDIA, şirketin yavaşlamayacağını ve manzarayı kontrol etmeyeceğini uzun zamandır açıkça belirtti. Bunun yerine NVIDIA, erken avantajından yararlanmak ve hızlandırıcı pazarında sürekli büyüyen rakip zümresinin önünde kalmak için GPU'lar ve hızlandırıcılar için çok nesilli ürün yol haritasını yinelemeye devam etmeyi planlıyor. Dolayısıyla, NVIDIA'nın gülünç derecede popüler olan H100/H200/GH200 serisi hızlandırıcıları halihazırda Silikon Vadisi'ndeki en sıcak bilet olsa da, NVIDIA'nın yapay zeka hedeflerini besleyecek yeni nesil hızlandırıcı mimarisi hakkında konuşmanın zamanı geldi bile: Blackwell.

5 yıldır ilk yüz yüze GTC'nin arka planında - NVIDIA, Volta moda olduğundan beri bunlardan birini düzenlemedi - NVIDIA CEO'su Jensen Huang, şirketin sahip olduğu yeni kurumsal ürün ve teknolojileri duyurmak için sahneye çıkıyor son birkaç yıldır üzerinde yoğun bir şekilde çalışıyoruz. Ancak bu duyuruların hiçbiri NVIDIA'nın sunucu çipi duyuruları kadar dikkat çekici değil; çünkü Hopper mimarisine sahip GH100 çipi ve NVIDIA'nın bunun üzerinde çalışan derin yazılım yığını yapay zeka hızlandırıcı endüstrisinin kapağını patlattı ve NVIDIA'yı dünyanın en büyük markası haline getirdi. dünyanın en değerli üçüncü şirketi.

Ancak teknoloji endüstrisinde çığır açan bir ürün yaratmanın tek püf noktası, onu tekrar yapmanız gerektiğidir. Yani tüm gözler, 2024'ün sonlarında piyasaya sürülmesi planlanan yeni nesil NVIDIA hızlandırıcı mimarisi Blackwell'in üzerinde.

Adını diğer şeylerin yanı sıra ilk Bayesian istatistik ders kitabını yazan Amerikalı istatistik ve matematik öncüsü Dr. David Harold Blackwell'den alan Blackwell mimarisi, NVIDIA bir kez daha şirketin ticari marka mimari tasarımlarının çoğunu ikiye katlıyor ve yeni yollar arıyor çok önemli veri merkezi/HPC hızlandırıcılarının performansını artırmak için daha akıllıca ve daha çok çalışmak. NVIDIA'nın Hopper (ve ondan önceki Ampere) ile çok iyi bir ilişkisi var ve Blackwell yüksek düzeyde aynısından daha fazlasını, ancak daha fazla özellik, daha fazla esneklik ve daha fazla transistörle getirmeyi hedefliyor.

Hopper lansmanı sırasında yazdığım gibi, "NVIDIA, sunucu GPU endüstrisinin nasıl ele alınacağına ilişkin çok sağlam bir taktik kitabı geliştirdi. Konuların donanım tarafında, esasen mevcut ve gelecekteki trendlerin yanı sıra yüksek performanslı hızlandırıcılarda müşteri ihtiyaçlarının doğru bir şekilde belirlenmesi, bu iş yüklerini yüksek hızlarda işlemek için gereken donanıma yatırım yapılması ve ardından bunların tamamının optimize edilmesi ile özetlenebilir. .” Ve bu zihniyet Blackwell için değişmedi. NVIDIA, performanstan bellek bant genişliğine kadar çip tasarımının her yönünü iyileştirdi ve her bir öğe, belirli bir iş yükü/senaryoda performansı artırmayı veya ölçeklenebilirlikteki darboğazı ortadan kaldırmayı hedefliyor. Ve NVIDIA bir kez daha daha az iş yapmanın daha fazla yolunu bulmaya devam ediyor.

Bugünün açılış konuşması öncesinde (siz bunu okuduğunuz sırada hala devam ediyor olmalı), NVIDIA basına Blackwell mimarisi ve onu uygulayacak ilk çip hakkında sınırlı bir ön brifing sundu. "Sınırlı" diyorum çünkü şirketin açılış konuşmasından önce açıklamadığı bir dizi temel özellik var ve GPU'nun adı bile belirsiz; NVDIA buna yalnızca “Blackwell GPU” adını veriyor. Ancak burada yeni nesil NVIDIA hızlandırıcıların kalbi hakkında şu ana kadar bildiklerimizin bir özetini bulacaksınız.

NVIDIA Amiral Gemisi Hızlandırıcı Spesifikasyon Karşılaştırması
B200 H100 A100 (80 GB)
FP32 CUDA Çekirdekleri Bir sürü 16896 6912
Tensör Çekirdekleri Mümkün olduğunca çok 528 432
Saati Artır Ay'a 1,98 GHz 1,41GHz
Hafıza saati 8Gbps HBM3E 5,23 Gb/sn HBM3 3,2 Gb/sn HBM2e
Bellek Veri Yolu Genişliği 2x 4096 bit 5120 bit 5120 bit
Bellek Bant Genişliği 8 TB/sn 3,35 TB/sn 2 TB/sn
VRAM 192 GB
(2x96 GB)
80 GB 80 GB
FP32 vektör ? TFLOP'lar 67 TFLOP 19,5 TFLOP
FP64 vektör ? TFLOP'lar 34 TFLOP 9.7 TFLOP'lar
(1/2 FP32 oranı)
FP4 Tensörü 9 PFLOP N / A N / A
INT8/FP8 Tensörü 4500 T(FL)OPS 1980 ÜSTLERİ 624 ÜST
FP16 Tensör 2250 TFLOP 990 TFLOP 312 TFLOP
TF32 Tensör 1100 TFLOP 495 TFLOP 156 TFLOP
FP64 Tensör 40 TFLOP 67 TFLOP 19,5 TFLOP
Ara bağlantı NVLink 5
? Bağlantılar (1800GB/sn)
NVLink 4
18 Bağlantı (900GB/sn)
NV Bağlantısı 3
12 Bağlantı (600GB/sn)
GPU “Blackwell GPU'su” GH100
(814mm2)
GA100
(826mm2)
Transistör Sayısı 208B (2x104B) 80B 54.2B
TDP 1000W 700W 400W
Üretim süreci TSMC 4NP TSMC 4N TSMC 7N
Arayüzey SXM SXM5 SXM4
Mimari Blackwell hazne Amper

Aksi belirtilmediği sürece yoğun/seyrek olmayan işlemler için tensör verimi rakamları

Unutulmaması gereken ilk şey, Blackwell GPU'nun büyük olacağıdır. Gerçekten. Gireceği B200 modülleri tek bir pakette iki GPU kalıbı içerecek. Doğru, NVIDIA sonunda amiral gemisi hızlandırıcısıyla çiplet haline geldi. Bireysel kalıpların boyutunu açıklamıyor olsalar da, bize bunların "retikül boyutunda" kalıplar olduğu söylendi, bu da onları her birinin 800 mm2'nin üzerinde bir yere koyması gerektiğini gösteriyor. GH100 kalıbının kendisi zaten TSMC'nin 4nm retikül sınırlarına yaklaşıyordu, dolayısıyla NVIDIA'nın burada büyümesi için çok az yer var; en azından tek bir kalıp içinde kalmadan.

İlginç bir şekilde, bu kalıp alanı kısıtlamalarına rağmen NVIDIA,TSMC 3nm sınıfı düğümBlackwell için. Teknik olarak yeni bir düğüm kullanıyorlar – TSMC 4NP – ancak bu, GH100 GPU için kullanılan 4N düğümün yalnızca daha yüksek performanslı bir versiyonudur. Yani uzun zamandır ilk kez NVIDIA, yeni ve büyük bir düğümün performans ve yoğunluk avantajlarından yararlanamıyor. Bu, Blackwell'in verimlilik kazanımlarının neredeyse tamamının mimari verimlilikten gelmesi gerektiği anlamına gelirken, bu verimliliğin ve ölçeğin büyütülmesinin bir karışımı, Blackwell'in genel performans kazanımlarını sağlayacaktır.

NVIDIA, 4nm sınıfı bir düğüme sadık kalmasına rağmen, tek bir kalıba daha fazla transistör sığdırmayı başardı. Hızlandırıcının tamamı için transistör sayısı 208B veya kalıp başına 104B transistördür. GH100, 80B transistördü, dolayısıyla her B100 kalıbı genel olarak yaklaşık %30 daha fazla transistöre sahiptir; bu, tarihsel standartlara göre mütevazı bir kazançtır. Bu da NVIDIA'nın GPU'sunun tamamı için daha fazla kalıp kullandığını görmemizin nedenidir.

NVIDIA, ilk çok kalıplı yongası için garip "bir yongada iki hızlandırıcı" aşamasını atlayıp doğrudan tüm hızlandırıcının tek bir yonga gibi davranmasını sağlamaya niyetli. NVIDIA'ya göre iki kalıp "tek bir birleşik CUDA GPU" olarak çalışıyor ve ödün vermeden tam performans sunuyor. Bunun anahtarı, NVIDIA'nın NV-Yüksek Bant Genişliği Arayüzü (NV-HBI) olarak adlandırdığı ve 10TB/saniye bant genişliği sunan, kalıplar arasındaki yüksek bant genişliğine sahip I/O bağlantısıdır. Muhtemelen bu toplamda geçerli, yani kalıplar her yöne aynı anda 5 TB/saniye gönderebiliyor.

Şu ana kadar detaylandırılmayan şey, bu bağlantının yapısıdır - NVIDIA baştan sona Substrat Üzerinde Çip'e (CoWoS) mi güveniyor, temel kalıp stratejisi mi (AMD MI300) kullanıyor yoksa güveniyor mu? sadece iki kalıbı birbirine bağlamak için ayrı bir yerel aracıda (ala Apple'ın UltraFusion'ı). Her iki durumda da bu, şimdiye kadar gördüğümüz diğer iki çipli köprü çözümlerinden önemli ölçüde daha fazla bant genişliğidir, bu da çok sayıda pinin devrede olduğu anlamına gelir.

B200'de, her kalıp 4 HBM3E bellek yığınıyla eşleştiriliyor ve toplamda 8 yığın oluşturularak 8192 bitlik etkili bir bellek veri yolu genişliği oluşturuluyor. Tüm yapay zeka hızlandırıcılarındaki kısıtlayıcı faktörlerden biri bellek kapasitesi olmuştur (bant genişliği ihtiyacını da hafife almamak için), dolayısıyla daha fazla yığın yerleştirebilmek, hızlandırıcının yerel bellek kapasitesini artırmada çok önemlidir. B200 toplamda 192 GB HBM3E veya 24 GB/yığın sunar; bu, H200'ün 24 GB/yığın kapasitesiyle aynıdır (ve orijinal 16 GB/yığın H100'den %50 daha fazla bellek).

NVIDIA'ya göre çip, 8 TB/saniyelik toplam HBM bellek bant genişliğine sahip; bu da yığın başına 1 TB/saniyeye veya 8 Gbps/pin veri hızına denk geliyor. Yazımızda belirttiğimiz gibiönceki HBM3E kapsamıBellek sonuçta 9,2 Gbps/pin veya daha iyisine gidecek şekilde tasarlanmıştır, ancak NVIDIA'nın sunucu hızlandırıcıları için saat hızlarında işleri biraz muhafazakar bir şekilde oynadığını sıklıkla görüyoruz. Her iki durumda da bu, H100'ün bellek bant genişliğinin neredeyse 2,4 katıdır (veya H200'den %66 daha fazladır), dolayısıyla NVIDIA bant genişliğinde önemli bir artış görüyor.

Son olarak, şimdilik tek bir B200 hızlandırıcının TDP'si hakkında hiçbir bilgimiz yok. Kuşkusuz yüksek olacak; Dennard sonrası bir dünyada transistörlerinizi iki katından fazla artıramazsınız ve bir tür güç cezası ödemezsiniz. NVIDIA hem hava soğutmalı DGX sistemlerini hem de sıvı soğutmalı NVL72 raflarını satacak, dolayısıyla B200 hava soğutmanın ötesinde değil, ancak NVIDIA'dan onay bekleniyor, küçük bir rakam beklemiyorum.

Genel olarak H100 ile karşılaştırıldığındaküme düzeyindeNVIDIA, eğitim performansında 4 kat, çıkarım performansında ise 30 kat daha büyük bir artış hedefliyor ve bunu 25 kat daha fazla enerji verimliliğiyle yapıyor. İlerledikçe bunun arkasındaki bazı teknolojileri ele alacağız ve NVIDIA'nın bunu nasıl başarmayı planladığı hakkında daha fazla bilgi şüphesiz açılış konuşmasının bir parçası olarak açıklanacak.

Ancak bu hedeflerden çıkan en ilginç sonuç, müdahale performansındaki artıştır. NVIDIA şu anda eğitim konusunda liderliği elinde tutuyor ancak çıkarım çok daha geniş ve daha rekabetçi bir pazar. Ancak bu büyük modeller eğitildikten sonra bunları yürütmek için daha da fazla bilgi işlem kaynağına ihtiyaç duyulacak ve NVIDIA bu durumun dışında kalmak istemiyor. Ancak bu, çok daha acımasız bir pazarda ikna edici bir liderliği ele geçirmenin (ve sürdürmenin) bir yolunu bulmak anlamına geliyor; dolayısıyla NVIDIA'nın işi onlar için biçilmiş kaftan.

İkinci Nesil Trafo Motoru: Daha da Düşük Hassasiyetler

Mimari açıdan konuşursak, NVIDIA'nın Hopper'la kazandığı en büyük kazanımlardan biri, mimarilerini, NVIDIA'nın Transformer Engine olarak adlandırdığı özel donanımın dahil edilmesiyle transformatör tipi modeller için optimize etme kararıydı. NVIDIA, transformatörlerin tüm ağırlıklarını ve parametrelerini yüksek hassasiyette (FP16) işlemesine gerek olmadığı gerçeğinden yararlanarak, bellek ihtiyaçlarını azaltmak ve iyileştirme sağlamak amacıyla bu işlemleri daha düşük hassasiyetli (FP8) işlemlerle karıştırmak için destek ekledi. verim. Bu, GPT-3/ChatGPT'nin 2022'nin sonlarında yükselişe geçmesiyle çok iyi sonuç veren bir karardı ve gerisi tarih oldu.

O halde NVIDIA, ikinci nesil transformatör motorları için belirsizliği daha da düşürecek. Blackwell, çıkarım için çok düşük hassasiyetli formatı kullanmayı göz önünde bulundurarak sayı formatlarını FP4 hassasiyetine kadar (evet, yalnızca 16 durumlu kayan noktalı sayı formatı) işleyebilecek. Bu arada NVIDIA, FP8'de daha fazla eğitim yapmayı planlıyor, bu da yine bilgi işlem verimini yüksek ve bellek tüketimini düşük tutuyor.

Transformatörler, doğruluk açısından çok fazla kayıp yaşamadan, daha düşük hassasiyetli formatları işleme konusunda ilginç bir yetenek göstermiştir. Ancak FP4 en hafif tabirle oldukça düşük. Bu nedenle, daha fazla bilgi olmadığı için, NVIDIA ve kullanıcılarının doğruluk ihtiyaçlarını bu kadar düşük bir veri hassasiyetiyle nasıl karşılamayı planladıklarını son derece merak ediyorum, çünkü FP4'ün çıkarım için yararlı olması, B200'ü bir çıkarım platformu olarak yapacak veya bozacak gibi görünüyor.

Her durumda, NVIDIA, tek bir B200 hızlandırıcının 10 PetaFLOPS'a kadar FP8 performansı sunabilmesini bekliyor - bu, seyrekliğin kullanıldığı varsayılarak, yaklaşık 2,5x H100 oranıdır - ve çıkarım için daha da saçma olan 20 PFLOPS'luk FP4 performansı. . H100, FP4'ten bile faydalanmıyor; bu nedenle, minimum FP8 veri boyutuyla karşılaştırıldığında B200, FP4 kullanılabildiğinde ham çıkarım veriminde 5 kat artış sunmalıdır.

Ve NVIDIA'nın bilgi işlem performansı oranlarının H100'e göre değişmeden kaldığını, FP16 performansının FP8'in yarısı olduğunu ve oradan küçültüldüğünü varsayarsak, B200 daha yüksek hassasiyetlerde de çok güçlü bir çip olarak duruyor. En azından AI kullanımları için olsa da, açıkça amaç mümkün olan en düşük hassasiyetle kurtulmaya çalışmaktır.

Yelpazenin diğer ucunda, açılış konuşmasından önce açıklanmayan şey ise FP64 tensör performansıdır. NVIDIA, Ampere mimarisinden bu yana, daha düşük hassasiyetlere kıyasla çok daha düşük bir oranda da olsa, FP64 tensör yetenekleri sunuyor. Bu, AI iş yüklerinin büyük çoğunluğu için pek kullanışlı değildir ancak HPC iş yükleri için faydalıdır. Bu yüzden NVIDIA'nın burada ne planladığını merak ediyorum; B200'ün HPC konusunda çok fazla yolu var mı, yoksa NVIDIA düşük hassasiyetli yapay zeka konusunda her şeyi dahil etmeyi planlıyor mu?

Orijinal makale