Nvidia yayınladı Blackwell B200 işlemcisinin ilk MLPerf 4.1 sonuçlarıSonuçlar, Blackwell GPU’nun Hopper mimarisine dayalı H100 öncülünden dört kata kadar daha fazla performans sunduğunu ortaya koyuyor ve bu da Nvidia’nın AI donanımında lider konumunu vurguluyor. Ancak belirtmemiz gereken bazı uyarılar ve feragatnameler var.
Nvidia’nın sonuçlarına göre, Blackwell tabanlı bir B200 GPU, bir sunucu çıkarım testinde tek bir GPU üzerinde saniyede 10.755 token ve çevrimdışı bir referans testinde saniyede 11.264 token sağlıyor. Hızlı bir bakış herkese açık MLPerf Llama 2 70B kıyaslama sonuçları, 4 yollu Hopper H100 tabanlı bir makinenin benzer sonuçlar verdiğini ortaya koyuyor ve bu da Nvidia’nın tek bir Blackwell işlemcinin tek bir Hopper H100 GPU’dan yaklaşık 3,7X–4X daha hızlı olduğu iddiasını destekliyor. Ancak sayıları daha iyi anlamak için parçalara ayırmamız gerekiyor.
Satır 0 – Hücre 0 | GPU sayısı | Çevrimdışı | Sunucu | GPU Çevrimdışı başına | GPU Sunucusu başına |
Nvidia B200 180GB HBM3E | 1 | 11264 | 10755 | 11264 | 10755 |
Nvidia H100 80GB HBM3 | 4 | 10700 | 9522 | 2675 | 2381 |
Nvidia H200 141GB HBM3E | 1 | 4488 | 4202 | 4488 | 4202 |
Nvidia H200 141GB HBM3E | 8 | 32124 | 29739 | 4016 | 3717 |
İlk olarak, Nvidia’nın Blackwell işlemcisi FP4 hassasiyetini kullandı çünkü beşinci nesil Tensor Çekirdekleri bu formatı destekliyordu, Hopper tabanlı H100 ise yalnızca FP8’i destekliyor ve kullanıyordu. Bu farklı formatlar MLPerf yönergeleri tarafından izin veriliyor, ancak Blackwell’deki FP4 performansı FP8 verimini iki katına çıkarıyor, bu yüzden dikkat edilmesi gereken ilk önemli konu bu.
Sonra, Nvidia dört H100 GPU’ya karşı tek bir B200 kullanırken biraz samimiyetsiz davranıyor. Ölçekleme asla mükemmel değildir, bu yüzden tek bir GPU, GPU başına performans için en iyi durum senaryosu olma eğilimindedir. MLPerf 4.1 için listelenen tek GPU H100 sonucu yoktur ve yalnızca tek bir B200 sonucu vardır, bu yüzden daha da fazla elma ve portakal olur. Ancak tek bir H200 4.488 token/s elde etti, bu da B200’ün bu belirli karşılaştırma için yalnızca 2,5 kat daha hızlı olduğu anlamına gelir.
Bellek kapasitesi ve bant genişliği de kritik faktörlerdir ve büyük nesil farkları vardır. Test edilen B200 GPU 180 GB HBM3E belleği taşır, H100 SXM 80 GB HBM’ye sahiptir (bazı yapılandırmalarda 96 GB’a kadar) ve H200 96 GB HBM3’e ve 144 GB’a kadar HBM3E’ye sahiptir. 96 GB HBM3’e sahip tek H200 için bir sonuç çevrimdışı modda yalnızca 3.114 token/s elde eder.
Yani, “4X’e kadar” rakamına etki eden sayı biçimi, GPU sayısı ve bellek kapasitesi ve yapılandırmasında potansiyel farklılıklar vardır. Bu farklılıkların çoğu, Blackwell B200’ün daha yeni bir mimariye sahip yeni bir çip olmasından kaynaklanmaktadır ve tüm bunlar nihai performansına etki eder.
Nvidia’nın 141 GB HBM3E belleğe sahip H200’üne geri dönersek, yalnızca Llama 2 70B büyük dil modelini içeren üretken AI kıyaslamasında değil, aynı zamanda veri merkezi kategorisindeki her bir testte de olağanüstü bir performans gösterdi. Açık nedenlerden ötürü, GPU bellek kapasitesinden yararlanan testlerde H100’den önemli ölçüde daha hızlı oldu.
Şimdilik, Nvidia B200’ün performansını yalnızca Llama 2 70B modelinde MLPerf 4.1 jeneratif AI kıyaslamasında paylaştı. Bunun hala ayarlamalar üzerinde çalıştığı için mi yoksa başka faktörler yüzünden mi olduğunu söyleyemeyiz, ancak MLPerf 4.1’in dokuz temel disiplini var ve şimdilik Blackwell B200’ün diğer testleri nasıl karşılayacağını yalnızca tahmin edebiliriz.