Nvidia CEO’su Jensen Huang, GTC canlı yayınında yeni GPU’sunu solda, sağda H100’ün yanında tutuyor.
Resim: Nvidia

Nvidia, yeni B200 GPU’nun 20’ye kadar teklif verdiğini söylüyor petafloplar 208 milyar transistöründen gelen FP4 beygir gücü ve bu GPU’lardan ikisini tek bir Grace CPU ile birleştiren bir GB200, LLM çıkarım iş yükleri için 30 kat daha fazla performans sunabilirken aynı zamanda potansiyel olarak çok daha verimli olabilir. Nvidia, H100’e göre “maliyeti ve enerji tüketimini 25 kata kadar azalttığını” söylüyor.

175 milyar parametreli bir GPT-3 LLM kıyaslamasında Nvidia, GB200’ün H100’e göre 7 kat daha mütevazı bir performansa sahip olduğunu ve Nvidia’nın 4 kat daha fazla eğitim hızı sunduğunu söylüyor.

İşte bir GB200’ün neye benzediği. İki GPU, bir CPU, bir kart.
Resim: Nvidia

Nvidia gazetecilere en önemli farklardan birinin, her nöron için sekiz yerine dört bit kullanarak bilgi işlem, bant genişliği ve model boyutunu ikiye katlayan ikinci nesil transformatör motoru olduğunu söyledi (dolayısıyla daha önce bahsettiğim FP4’ün 20 petaflop’u). fark yalnızca bu GPU’lardan çok büyük bir kısmını bir sunucuya bağladığınızda ortaya çıkar: saniyede 1,8 terabayt çift yönlü bant genişliğiyle 576 GPU’nun birbiriyle konuşmasına olanak tanıyan yeni nesil bir NVLink ağ çözümü.

Nvidia, daha önce yalnızca 16 GPU’dan oluşan bir kümenin zamanının yüzde 60’ını birbirleriyle iletişim kurarak ve yalnızca yüzde 40’ını gerçekten bilgi işlem yaparak harcadığını söylüyor.

GB200 NVL72.
Resim: Nvidia

Nvidia elbette bu GPU’lardan büyük miktarlarda satın alan şirketlere güveniyor ve bunları, 36 CPU ve 72 GPU’yu tek bir sıvı soğutmalı rafa toplam 720 petaflop için takan GB200 NVL72 gibi süper bilgisayarlara hazır daha büyük tasarımlarda paketliyor. AI eğitim performansı veya 1.440 petaflop (diğer adıyla 1,4 exaflops) çıkarım. Raftaki her tepsi ya iki GB200 yongası ya da iki NVLink anahtarı içerir; raf başına birinciden 18’i ve ikinciden 9’u bulunur. Toplamda Nvidia, bu raflardan birinin 27 trilyon parametreli bir modeli destekleyebileceğini söylüyor. GPT-4’ün yaklaşık 1,7 trilyon parametreli bir model olduğu söyleniyor.

Şirket, Amazon, Google, Microsoft ve Oracle’ın halihazırda bulut hizmeti tekliflerinde NVL72 raflarını sunmayı planladıklarını ancak kaç tane satın aldıklarının belli olmadığını söylüyor.

Ve tabii ki Nvidia, şirketlere çözümün geri kalanını da sunmaktan mutluluk duyuyor. İşte DGX GB200 için DGX Superpod, toplam 288 CPU, 576 GPU, 240 TB bellek ve 11,5 exaflop FP4 bilgi işlem için sekiz sistemi bir arada birleştiriyor.

Nvidia, sistemlerinin yeni Quantum-X800 Infiniband (144 bağlantıya kadar) veya Spectrum-X800 Ethernet (64 bağlantıya kadar) ile 800 Gbps ağ bağlantısıyla birbirine bağlanan on binlerce GB200 süper çipine ölçeklenebileceğini söylüyor.



genel-2