Nvidia, gelecek haftaki Hot Chips 34 sunumundan önce Grace CPU Superchip ile ilgili yeni detayları açıkladı ve çiplerin 4N sürecinde muhteşem olduğunu ortaya koydu. Nvidia ayrıca mimari ve veri yapısı hakkında daha fazla bilgi ile daha fazla performans ve verimlilik kıyaslaması paylaştı. Nvidia henüz Hot Chips’te resmi sunumunu yapmadı – oturumdan sonra daha ince ayrıntıları ekleyeceğiz – ancak bugün paylaşılan bilgiler, Grace yongaları ve sunucuları ilk pazarda pazara girerken bize geniş vuruşlar veriyor. 2023’ün yarısı.
Kısa bir hatırlatma olarak, Nvidia’nın Grace CPU’su, şirketin veri merkezi için tasarlanmış yalnızca CPU’ya yönelik ilk Arm yongasıdır ve tek bir anakartta toplam 144 çekirdeğe sahip iki yonga olarak gelirken, Grace Hopper Superchip, bir Hopper GPU ve Grace CPU’yu ana kartta birleştirir. aynı tahta.
En önemli açıklamalar arasında Nvidia nihayet Grace CPU’ların TSMC 4N işlemini kullandığını resmen doğruladı. TSMC 5nm düğüm ailesi altında “N4” 4nm sürecini listeler, 5nm düğümünün geliştirilmiş bir versiyonu olarak tanımlıyor. Nvidia, bu düğümün ‘4N’ olarak adlandırılan ve özellikle GPU’ları ve CPU’ları için optimize edilmiş özel bir varyantını kullanıyor.
Moore Yasası azaldıkça ve transistörleri küçültmek her yeni düğümle daha zor ve daha pahalı hale geldikçe, bu tür özel düğümler daha yaygın hale geliyor. Nvidia’nın 4N’si gibi özel işlem düğümlerini etkinleştirmek için çip tasarımcıları ve dökümhaneler, kendi özel ürünleri için özel güç, performans ve alan (PPA) özelliklerini aramak için Tasarım-Teknoloji Ortak Optimizasyonu (DTCO) kullanarak el ele çalışırlar.
Nvidia daha önce Grace CPU’ları için hazır Arm Neoverse çekirdeklerini kullandığını açıklamıştı, ancak şirket hala hangi sürümü kullandığını belirtmedi. Ancak Nvidia, Grace’in Arm v9 çekirdeklerini kullandığını ve SVE2’yi desteklediğini ve Neoverse N2 platformunun Arm’ın Arm v9 ve SVE2 gibi uzantıları destekleyen ilk IP’si olduğunu açıkladı. N2 Perseus platformu 5nm tasarım olarak gelir (unutmayın, N4, TSMC’nin 5nm ailesindedir) ve PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 ve CXL 2.0’ı destekler. Perseus tasarımı, güç başına performans (watt) ve alan başına performans için optimize edilmiştir. Arm, yeni nesil çekirdekleri Poseidon’un 2024’e kadar piyasaya çıkmayacağını ve bu çekirdeklerin Grace’in 2023’ün başlarında piyasaya sürülme tarihi göz önüne alındığında daha az olası bir aday olduğunu söylüyor.
Nvidia Grace Hopper CPU Mimarisi
Nvidia’nın yeni Nvidia Ölçeklenebilir Tutarlılık Yapısı (SCF), Arm Neoverse çekirdekleriyle kullanılan standart CMN-700 Tutarlı Örgü Ağı’na çok benzeyen bir ağ bağlantısıdır.
Nvidia SCF, CPU çekirdekleri, bellek ve G/Ç gibi çeşitli Grace yonga birimleri arasında 3,2 TB/sn iki kesitli bant genişliği sağlar ve yongayı diğer birime bağlayan NVLink-C2C arabiriminden bahsetmiyorum bile. anakart, başka bir Grace CPU veya Hopper GPU olsun.
Ağ, 72+ çekirdeği destekler ve her CPU’da toplam 117 MB L3 önbellek bulunur. Nvidia, yukarıdaki albümdeki ilk blok diyagramın ‘açıklayıcı amaçlar için olası bir topoloji’ olduğunu ve hizalamanın ikinci diyagramla tamamen uyuşmadığını söylüyor.
Bu şemada, L3 önbellek dilimleri gibi görünen sekiz SCF Önbellek bölümü (SCC) ile birlikte sekiz CPU birimi (bunlar çekirdek kümeleri gibi görünüyor) ile çip gösterilmektedir (daha fazla ayrıntıyı sunuda öğreneceğiz). SCC ve çekirdekler, iki kişilik gruplar halinde Önbellek Anahtar Düğümlerine (CSN) bağlanır, ardından CSN, CPU çekirdekleri ile çipin geri kalanına bellek arasında bir arabirim sağlamak için SCF ağ dokusunda bulunur. SCF ayrıca Coherent NVLink ile dört yuvaya kadar tutarlılığı destekler.
Nvidia ayrıca her Grace CPU’nun 68 adede kadar PCIe hattını ve dört adede kadar PCIe 5.0 x16 bağlantısını desteklediğini gösteren bu diyagramı paylaştı. Her x16 bağlantısı 128 GB/s’ye kadar çift yönlü çıktıyı destekler (x16 bağlantıları iki x8 bağlantısına bölünebilir). Ayrıca 16 adet çift kanallı LPDDR5X bellek denetleyicisi (MC) görüyoruz.
Bununla birlikte, bu şema ilkinden farklıdır – L3 önbelleğini dört çekirdekli CPU kümelerine bağlı iki bitişik blok olarak gösterir; bu, önceki şemadan çok daha anlamlıdır ve çipte toplam 72 çekirdeğe sahiptir. Ancak, ilk diyagramda ayrı SCF bölümlerini veya CSN düğümlerini görmüyoruz, bu da biraz karışıklığa neden oluyor. Bunu sunum sırasında değerlendireceğiz ve gerektiğinde güncelleyeceğiz.
Nvidia, Ölçeklenebilir Tutarlılık Yapısının (SCF) tescilli tasarımı olduğunu söylüyor, ancak Arm, ortaklarının çekirdek sayılarını, önbellek boyutlarını ayarlayarak ve DDR5 ve HBM gibi farklı bellek türlerini kullanarak CMN-700 ağını özelleştirmesine izin veriyor ve PCIe 5.0, CXL ve CCIX gibi çeşitli arayüzleri seçme. Bu, Nvidia’nın kalıp üstü kumaş için son derece özelleştirilmiş bir CMN-700 uygulaması kullanmasının mümkün olduğu anlamına gelir.
Nvidia Grace Hopper Genişletilmiş GPU Belleği
GPU’lar bellek verimini sever, bu yüzden doğal olarak Nvidia, gözünü yalnızca çip içinde değil, aynı zamanda CPU ve GPU arasında da bellek verimini iyileştirmeye çevirdi. Grace CPU, 512 GB’a kadar belleği ve 546 GB/s’ye kadar çıktıyı destekleyen 32 kanala kadar çalışan 16 adet çift kanallı LPDDR5X bellek denetleyicisine sahiptir. Nvidia, kapasite ve maliyet gibi birden çok faktör nedeniyle HBM2e yerine LPDDR5X’i seçtiğini söylüyor. Bu arada, LPDDR5X, standart DDR5 belleğe kıyasla %53 daha fazla bant genişliği ve GB başına 1/8 güç sağlayarak, onu genel olarak daha iyi bir seçim haline getirir.
Nvidia ayrıca, NVLink ağındaki herhangi bir Hopper GPU’nun ağdaki herhangi bir Grace CPU’nun LPDDR5X belleğine yerel NVLink performansıyla erişmesine izin veren Genişletilmiş GPU Belleği’ni (EGM) de sunuyor.
Nvidia’nın amacı, CPU ve GPU arasında paylaşılabilen birleşik bir bellek havuzu sağlayarak programlama modelini basitleştirirken daha yüksek performans sağlamaktır. Grace Hopper CPU+GPU yongası, paylaşılan sayfa tablolarıyla birleşik belleği destekler; bu, yongaların bir adres alanını ve sayfa tablolarını CUDA uygulamalarıyla paylaşabileceği ve GPU belleğini tahsis etmek için sistem ayırıcıların kullanılmasına izin verebileceği anlamına gelir. Ayrıca CPU ve GPU arasındaki yerel atomları da destekler.
Nvidia NVLink-C2C
CPU çekirdekleri, bilgi işlem motorudur, ancak ara bağlantılar, bilgi işlemin geleceğini tanımlayacak olan savaş alanıdır. Verileri taşımak, gerçekte veriyi hesaplamaktan daha fazla güç tüketir, bu nedenle veriler arasında daha hızlı ve daha verimli hareket etmek, hatta veri aktarımlarından kaçınmak temel hedeftir.
Nvidia’nın tek bir kart üzerinde iki CPU’dan oluşan Grace CPU’su ve aynı kart üzerinde bir Grace CPU ve bir Hopper GPU’dan oluşan Grace Hopper Superchip, tescilli bir NVLink Chip aracılığıyla üniteler arasında veri aktarımını en üst düzeye çıkarmak için tasarlanmıştır. to-Chip (C2C) ara bağlantısı ve veri aktarımlarını azaltmak veya ortadan kaldırmak için bellek tutarlılığı sağlamak.
ara bağlantı | Bit Başına Picojoule (pJ/b) |
NVLink-C2C | 1,3 pJ/b |
UCIe | 0,5 – 0,25 pJ/b |
sonsuzluk kumaşı | ~1.5 pJ/b |
TSMC CoWoS | 0,56 pJ/b |
iki yüzlü | 0,2 pJ/b |
EMIB | 0,3 pJ/b |
Demet Tel (BoW) | 0,7 ila 0,5 pJ/b |
ölmek üzere | 0,1 pJ/b |
Nvidia, NVLink-C2C ara bağlantısıyla ilgili yeni ayrıntıları paylaştı. Hatırlatmak gerekirse, bu, bellek tutarlılığını destekleyen ve 900 GB/s’ye kadar çıktı (PCIe 5.0 x16 bağlantısının bant genişliğinin 7 katı) sağlayan bir kalıptan kalıba ve yongadan yongaya ara bağlantıdır. Bu arayüz NVLink protokolünü kullanır ve Nvidia, arayüzü enerji ve alan verimliliğine odaklanarak SERDES ve LINK tasarım teknolojilerini kullanarak hazırladı. Ancak NVLink-C2C, CXL ve Arm’ın AMBA Tutarlı Hub Arayüzü (CHI — Neoverse CMN-700 ağının anahtarı) gibi endüstri standardı protokolleri de destekler. Ayrıca, PCB tabanlı ara bağlantılardan silikon aracılara ve gofret ölçekli uygulamalara kadar çeşitli bağlantı türlerini de destekler.
Güç verimliliği, tüm veri yapıları için önemli bir ölçüdür ve bugün Nvidia, bağlantının aktarılan verinin biti (pJ/b) başına 1,3 pikojoule tükettiğini paylaştı. Bu, PCIe 5.0 arabiriminin verimliliğinin 5 katıdır, ancak gelecekte piyasaya çıkacak olan UCIe ara bağlantısının gücünün iki katından fazladır (0,5 ila 0,25 pJ/b). Paketleme türleri değişir ve C2C bağlantısı, Nvidia’ya kendi özel kullanım durumu için sağlam bir performans ve verimlilik karışımı sağlar, ancak yukarıdaki tabloda görebileceğiniz gibi, daha gelişmiş seçenekler daha yüksek düzeyde güç verimliliği sağlar.
Nvidia Grace CPU Karşılaştırmaları
Nvidia daha fazla performans kıyaslaması paylaştı, ancak satıcı tarafından sağlanan tüm performans verilerinde olduğu gibi, bu sayıları bir tuz tanesi ile almalısınız. Bu ölçütler ayrıca, silikon öncesi yapıldıkları, yani henüz gerçek silikonla test edilmemiş ve “değişime tabi” olan taklit projeksiyonlar oldukları ek uyarısı ile birlikte gelir. Bu nedenle, biraz fazla tuz serpin.
Nvidia’nın buradaki yeni kriteri, SpecIntRate 2017 karşılaştırmasında tek bir Grace CPU ile 370 puan. Bu, yongaları beklediğimiz aralığa yerleştirir – Nvidia, 740 puan talep ederek, çoklu CPU karşılaştırmasını zaten paylaştı. iki SpecIntRate2017 karşılaştırmasında Grace CPU’lar. Açıkçası, bu iki yonga ile doğrusal bir ölçekleme iyileştirmesi önerir.
Veri merkezindeki mevcut performans lideri olan AMD’nin mevcut nesil EPYC Milan yongaları, 382 ile 424 adet arasında değişen SPEC sonuçları yayınladı, bu da en yüksek uç x86 yongalarının liderliğini sürdüreceği anlamına geliyor. Ancak Nvidia’nın çözümü, güç verimliliği ve daha GPU dostu tasarım gibi birçok avantaja sahip olacak.
Nvidia, Grace CPU’nun CPU bellek çıktısı testlerinde ~500 GB/sn çıktı sağlayabildiğini gösteren bellek çıktısı karşılaştırmalarını paylaştı. Nvidia ayrıca çipin bağlı bir Hopper GPU’ya 506 GB/sn’ye kadar birleşik okuma/yazma çıktısı aktarabileceğini ve okuma verimi testleri sırasında CPU’yu GPU bant genişliğine 429 GB/sn ve yazma ile 407 GB/sn’de hızlandırdığını iddia ediyor. .
Grace Hopper Kol Sistemine Hazır
Nvidia ayrıca Grace CPU Superchip’in System Ready sertifikası almak için gerekli gereksinimlere bağlı kalacağını duyurdu. Bu sertifika, bir Arm çipinin işletim sistemleri ve yazılımlarla ‘yalnızca çalışacağını’ ve böylece dağıtımı kolaylaştıracağını belirtir. Grace, iç içe sanallaştırma ve S-EL2 desteği dahil olmak üzere sanallaştırma uzantılarını da destekleyecektir. Nvidia ayrıca aşağıdakiler için desteği listeler:
- RAS v1.1 Genel Kesinti Denetleyicisi (GIC) v4.1
- Bellek Bölümleme ve İzleme (MPAM)
- Sistem Belleği Yönetim Birimi (SMMU) v3.1
- Standartlarla uyumlu donanım ve yazılım arayüzlerini etkinleştirmek için Arm Server Base System Architecture (SBSA). Ek olarak, Grace CPU tabanlı sistemlerde standart önyükleme akışlarını etkinleştirmek için Grace CPU, Arm Server Base Boot Requirements’ı (SBBR) desteklemek üzere tasarlanmıştır.
- Grace CPU, önbellek ve bant genişliği bölümlemenin yanı sıra bant genişliği izleme için Arm Memory Partitioning and Monitoring (MPAM) özelliğini de destekler. Grace CPU ayrıca, yonga üzerinde sistem (SoC) mimarisindeki diğer alt sistemlerin yanı sıra CPU çekirdeklerinin performansının izlenmesine izin veren Arm Performans İzleme Birimlerini de içerir. Bu, performans araştırmaları için Linux perf gibi standart araçların kullanılmasını sağlar.
Nvidia’nın Grace CPU ve Grace Hopper Superchip’i, AI eğitimi, çıkarım ve HPC için tasarlanmış Hopper varyantı ile 2023’ün başlarında piyasaya sürülmek üzere yoldayken, çift CPU Grace sistemleri HPC ve bulut bilgi işlem iş yükleri için tasarlanmıştır.