Piyasaya sürmek için biraz geç kalmış olabilirler, ancak Nvidia CEO’su Jensen Huang burada, Taipei, Tayvan’daki Computex 2023’te şirketin Grace Hopper süper çiplerinin artık tam üretimde olduğunu ve Grace platformunun şu anda altı süper bilgisayar galibiyeti kazandığını duyurdu. Bu yongalar, Huang’ın diğer büyük Computex 2023 duyurularından birinin temel yapı taşlarını oluşturuyor: Şirketin devasa üretken yapay zeka iş yükleri için oluşturulmuş yeni DGX GH200 yapay zeka süper bilgi işlem platformu, artık 144 TB’lık bir süper bilgi işlem merkezi oluşturmak için bir araya getirilmiş 256 Grace Hopper Superchip ile birlikte sunuluyor. en zorlu üretken AI eğitim görevleri için paylaşılan bellek. Nvidia’nın Google, Meta ve Microsoft gibi önde gelen sistemleri almaya hazır müşterileri zaten var.
Nvidia ayrıca, OEM’lerin mevcut 100’den fazla sistemle yeni yapay zeka süper bilgisayarlarını daha hızlı oluşturmasına yardımcı olacak yeni MGX referans mimarilerini duyurdu. Son olarak şirket ayrıca yapay zeka sunucusu ve süper bilgi işlem kümeleri için özel olarak tasarlanmış ve optimize edilmiş yeni Spectrum-X Ethernet ağ platformunu da duyurdu. Hadi dalalım.
Nvidia Grace Hopper Süper Çipleri Artık Üretimde
Geçmişte Grace ve Grace Hopper Superchip’lerini derinlemesine ele aldık. Bu çipler, Nidia’nın bugün duyurduğu yeni sistemlerinin merkezinde yer alıyor. Grace yongası, Nvidia’nın yalnızca Arm CPU işlemcisidir ve Grace Hopper Superchip, tümü 200 milyar transistör ağırlığında olan Grace 72 çekirdekli CPU, Hopper GPU, 96 GB HBM3 ve 512 GB LPDDR5X’i aynı pakette birleştirir. . Bu kombinasyon, belirli belleğe bağlı iş yükleri için muazzam bir avantaj sağlayan CPU ve GPU arasında 1 TB/sn’ye varan aktarım hızı ile CPU ve GPU arasında şaşırtıcı veri bant genişliği sağlar.
Grace Hopper Superchip’lerin artık tam üretim aşamasında olmasıyla, sistemlerin Nidia’nın Asus, Gigabyte, ASRock Rack ve Pegatron gibi sistem ortaklarından gelmesini bekleyebiliriz. Daha da önemlisi, Nvidia yeni yongalara dayalı kendi sistemlerini çıkarıyor ve aşağıda ele alacağımız OxM’ler ve hiper ölçekleyiciler için referans tasarım mimarileri yayınlıyor.
Nvidia DGX GH200 Süper Bilgisayar
Nvidia’nın DGX sistemleri, en zorlu AI ve HPC iş yükleri için başvurulacak sistem ve referans mimarisidir, ancak mevcut DGX A100 sistemleri, tek bir uyumlu birim olarak art arda çalışan sekiz A100 GPU ile sınırlıdır. Üretken yapay zekanın patlaması göz önüne alındığında, Nvidia’nın müşterileri çok daha fazla performansa sahip çok daha büyük sistemler için can atıyor ve DGX H200, üretken yapay zeka eğitimi, büyük dil modelleri, öneri aracı gibi en büyük iş yüklerinde muazzam ölçeklenebilirlik için en üst düzeyde iş hacmi sunmak üzere tasarlandı. Nvidia’nın özel NVLink Switch silikonu ile InfiniBand ve Ethernet gibi standart küme bağlantı seçeneklerinin sınırlamalarını ortadan kaldırarak sistemler ve veri analitiği.
Yeni DGX GH200 AI süper bilgisayarının daha ince yönleriyle ilgili ayrıntılar hala çok az, ancak Nvidia’nın 256 GH200 Grace Hopper yongasını ve 144 TB paylaşılan belleği tek bir uyumlu birimde birleştirmek için 36 NVLink anahtarına sahip yeni bir NVLink Anahtar Sistemi kullandığını biliyoruz. devasa bir GPU gibi görünen ve hareket eden. Yeni NVLink Anahtar Sistemi, NVLink Anahtarı şu anda üçüncü neslinde olan silikon.
DGX GH200 toplam 256 Grace Hopper CPU+GPU ile birlikte gelir, bu da Nvidia’nın önceki en büyük sekiz GPU’lu NVLink bağlantılı DGX düzenlemesini kolayca geride bırakır ve 144 TB paylaşılan bellek, ‘yalnızca’ 320 GB paylaşılan bellek sunan DGX A100 sistemlerinden 500 kat daha fazladır. sekiz A100 GPU arasında bellek. Ek olarak, DGX A100 sistemini sekizden fazla GPU’lu kümelere genişletmek, sistemler arasında ara bağlantı olarak performans cezalarına neden olan InfiniBand’in kullanılmasını gerektirir. Buna karşılık, DGX GH200, Nvidia’nın NVLink Switch topolojisi etrafında ilk kez tam bir süper bilgisayar kümesi oluşturduğunu gösteriyor; Nvidia, bunun önceki nesil GPU’dan GPU’ya 10 kata kadar ve CPU’dan GPU’ya 7 kata kadar bant genişliği sağladığını söylüyor. sistem. Ayrıca, rakip ara bağlantılardan 5 kat daha fazla ara bağlantı güç verimliliği (muhtemelen PJ/bit olarak ölçülür) ve 128 TB/s’ye kadar ikiye bölünmüş bant genişliği sağlamak üzere tasarlanmıştır.
Sistem 150 millik optik fibere sahip ve 40.000 libre ağırlığında, ancak kendisini tek bir GPU olarak sunuyor. Nvidia, 256 Grace Hopper Superchip’in DGX GH200’ü ‘AI performansının’ bir exaflop’una taşıdığını söylüyor; bu, değerin, HPC ve süper hesaplamada kullanılan FP64 ölçümlerinden ziyade AI iş yükleriyle daha ilgili olan daha küçük veri türleriyle ölçüldüğü anlamına geliyor. Bu performans, 900 GB/sn GPU’dan GPU’ya bant genişliğinin sayesinde gelir; Grace Hopper’ın NVLink ile aynı kart üzerinde doğrudan birbirine bağlandığında Grace CPU ile 1 TB/sn’lik iş hacmini aştığı göz önüne alındığında oldukça etkileyici bir ölçeklenebilirliktir. -C2C çip ara bağlantısı.
Nvidia, InfiniBand ile birbirine bağlı bir DGX H100 kümesiyle kafa kafaya giden NVLink Anahtar Sistemi ile DGX GH200’ün öngörülen karşılaştırmalı değerlendirmelerini sağladı. Nvidia, yukarıdaki iş yükü hesaplamaları için 32 ile 256 arasında değişen değişen sayıda GPU kullandı, ancak her sistem, her test için aynı sayıda GPU kullandı. Gördüğünüz gibi, ara bağlantı performansındaki patlayıcı kazanımların, her yerde 2,2 kat ila 6,3 kat daha fazla performansın kilidini açması bekleniyor.
Nvidia, DGX GH200 referans planlarını 2023’ün sonundan önce önde gelen müşterileri Google, Meta ve Microsoft’a sağlayacak ve ayrıca bulut hizmeti sağlayıcıları ve hiper ölçekleyiciler için sistemi bir referans mimari tasarımı olarak sağlayacaktır.
Nvidia da kendi test sürümünü yiyor; şirket, kendi araştırma ve geliştirme çalışmaları için kullanacağı dört DGX GH200 sisteminden oluşan yeni bir Nvidia Helios süper bilgisayarı kuracak. Toplam 1.024 Grace Hopper Superchip içeren dört sistem, Nvidia’nın Quantum-2 InfiniBand 400 Gb/s ağı ile birbirine bağlanacak.
Nvidia MGX Sistemleri Referans Mimarileri
En üst düzey sistemler için DGX devreye girerken, hiper ölçekleyiciler için Nvidia’nın HGX sistemleri devreye giriyor. Ancak yeni MGX sistemleri, bu iki sistemin orta noktası olarak devreye giriyor ve DGX ve HGX, yeni MGX sistemleri ile birlikte var olmaya devam edecek.
Nvidia’nın OxM ortakları, yapay zeka merkezli sunucu tasarımlarıyla yeni zorluklarla karşı karşıya kalıyor ve bu nedenle tasarım ve dağıtım yavaşlıyor. Nvidia’nın yeni MGX referans mimarileri, 100’den fazla referans tasarımıyla bu süreci hızlandırmak için tasarlandı. MGX sistemleri, Nvidia’nın CPU ve GPU’lar, DPU’lar ve ağ sistemleri yelpazesini kapsayan modüler tasarımları içerir, ancak aynı zamanda günümüz sunucularında bulunan yaygın x86 ve Arm tabanlı işlemcileri temel alan tasarımları da içerir. Nvidia ayrıca hem hava hem de sıvı soğutmalı tasarımlar için seçenekler sunarak OxM’lere geniş bir uygulama yelpazesi için farklı tasarım noktaları sağlar.
Doğal olarak Nvidia, QCT ve Supermicro’nun önde gelen sistemlerinin Grace ve Grace Hopper Superchip’leri tarafından destekleneceğine dikkat çekiyor, ancak x86 çeşitlerinin muhtemelen zaman içinde daha geniş bir kullanılabilir sistem yelpazesine sahip olmasını bekliyoruz. Asus, Gigabyte, ASRock Rack ve Pegatron, bu yılın sonlarından gelecek yılın başlarına kadar piyasaya çıkacak sistemler için MGX referans mimarilerini kullanacak.
MGX referans tasarımları, Nvidia’nın Computex basın patlamasının uyuyan duyurusu olabilir – bunlar, ana akım veri merkezlerinin ve işletmelerin sonunda yapay zeka merkezli mimarileri dağıtımlarına dahil etmek için konuşlandıracakları ve biraz egzotik olanlardan çok daha fazla sayıda gönderilecekleri sistemler olacak. ve daha maliyetli DGX sistemleri – bunlar hacim değiştiricilerdir. Nvidia, halka açık olacak ve yakında bir teknik inceleme yayınlayacak olan spesifikasyonu tamamlamaya devam ediyor.
Nvidia Spectrum-X Ağ Platformu
Nvidia’nın Mellanox’u satın alması şirket için çok önemli bir hamle oldu çünkü artık ağ bileşenlerini ve yazılımını yapay zeka merkezli ihtiyaçları için optimize edip ayarlayabiliyor. Yeni Spectrum-X ağ platformu, Nvidia’nın ‘AI için dünyanın ilk yüksek performanslı Ethernet’ ağ platformu olarak lanse ettiği gibi, belki de bu yeteneklerin mükemmel bir örneğidir.
Buradaki kilit noktalardan biri, Nvidia’nın, genellikle yüksek performanslı sistemlerde bulunan InfiniBand bağlantılarının aksine, yüksek performanslı AI platformları için ara bağlantı olarak Ethernet’e dönmesidir. Spectrum-X tasarımı, Nvidia’nın 51 Tb/sn Spectrum-4 400 GbE Ethernet anahtarlarını ve geliştiricilerin yapay zeka iş yüklerinin benzersiz ihtiyaçları için sistemleri ayarlamasına olanak tanıyan yazılım ve SDK’larla eşleştirilmiş Nvidia Bluefield-3 DPU’ları kullanır. Diğer Ethernet tabanlı sistemlerin aksine Nvidia, Spectrum-X’in kayıpsız olduğunu ve dolayısıyla üstün QoS ve gecikme süresi sağladığını söylüyor. Ayrıca, özellikle çok kiracılı ortamlarda yardımcı olan yeni uyarlanabilir yönlendirme teknolojisine sahiptir.
Spectrum-X ağ platformu, Ethernet tabanlı ağa yüksek performanslı AI küme yetenekleri getirdiği ve AI’nın hiper ölçekli altyapıya daha geniş dağıtımları için yeni seçenekler sunduğu için Nvidia’nın portföyünün temel bir yönüdür. Spectrum-X platformu ayrıca mevcut Ethernet tabanlı yığınlarla tamamen birlikte çalışabilir ve tek bir anahtarda 256 200 Gb/sn’ye kadar bağlantı noktasıyla veya iki katmanlı bir yaprak omurga topolojisinde 16.000 bağlantı noktasıyla etkileyici ölçeklenebilirlik sunar.
Nvidia Spectrum-X platformu ve 400G LinkX optiği dahil ilişkili bileşenleri artık mevcut.
Nvidia Grace ve Grace Hopper Superchip Supercomputing Kazandı
Nvidia’nın ilk Arm CPU’ları (Grace) zaten üretimdeydi ve Tayvan Ulusal Yüksek Performanslı Bilgi İşlem Merkezi için bilgi işlem satıcısı ASUS tarafından inşa edilecek olan yeni duyurulan Taiwania 4 de dahil olmak üzere son üç süper bilgisayar galibiyetiyle bir etki yarattı. Bu sistem 44 Grace CPU düğümüne sahip olacak ve Nvidia, konuşlandırıldığında Asya’daki enerji açısından en verimli süper bilgisayarlar arasında yer alacağını iddia ediyor. Süper bilgisayar, iklim değişikliği sorunlarını modellemek için kullanılacak.
Nvidia, Tayvan merkezli olacak yeni Taipei 1 süper bilgisayarının ayrıntılarını da paylaştı. Bu sistem, şirketin ağ kitiyle birbirine bağlı 64 DGX H100 AI süper bilgisayarı ve 64 Nvidia OVX sistemine sahip olacak. Bu sistem, bu yıl bittiğinde daha fazla belirtilmemiş yerel Ar-Ge iş yükleri için kullanılacaktır.