Supercomputing 22’nin başlamasından sadece birkaç gün önce Intel tanıtıldı (yeni sekmede açılır) daha önce kod adı Sapphire Rapids HBM olan yeni nesil Xeon Max CPU ve Data Center GPU Max Series, Ponte Vecchio olarak bilinen GPU’ları hesaplıyor. Yeni ürünler, farklı türlerdeki yüksek performanslı bilgi işlem iş yüklerine hitap ediyor veya en karmaşık süper bilgi işlem görevlerini çözmek için birlikte çalışıyor.
Xeon Max CPU: Sapphire Rapids 64 GB HBM2E Alır
Genel amaçlı x86 işlemciler, neredeyse her türlü teknik bilgi işlem için on yıllardır kullanılmaktadır ve bu nedenle birçok uygulamayı desteklemektedir. Bununla birlikte, genel amaçlı CPU çekirdeklerinin performansı yıllardır oldukça hızlı bir şekilde ölçeklenirken, günümüz işlemcilerinin yapay zeka ve HPC iş yüklerindeki performansla ilgili iki önemli sınırlaması vardır: paralelleştirme ve bellek bant genişliği. Intel’in Xeon Max ‘Sapphire Rapids HBM’ işlemcileri her iki sınırı da kaldırmayı vaat ediyor.
Intel’in Xeon Max işlemcisi, AI ve HPC iş yükleri için çoklu hızlandırıcı motorlar ve 64 GB paket HBM2E bellek ile daha da geliştirilmiş 56 adede kadar yüksek performanslı Golden Cove çekirdeğine (Intel’in EMIB teknolojisi kullanılarak birbirine bağlı dört yongacığın üzerine yayılmış) sahiptir. Diğer Sapphire Rapids CPU’lar gibi, Xeon Max de üstte CXL 1.1 protokolü ile sekiz kanallı DDR5 bellek ve PCIe Gen 5 arayüzünü destekleyecek, böylece mantıklı olduğunda tüm bu CXL etkin hızlandırıcıları kullanabilecek.
Vektör AVX-512 ve Deep Learning Boost (AVX512_VNNI ve AVX512_BF16) hızlandırıcı desteğine ek olarak, yeni çekirdekler ayrıca, esasen BF16 ve INT8’i destekleyen birleştirilmiş çoklu-ekleme birimleri ızgarası olan Gelişmiş Matris Uzantıları (AMX) döşenmiş matris çarpma hızlandırıcısını da getiriyor. yalnızca 12 komut kullanılarak programlanabilen ve çekirdek başına döngü başına 1024 TMUL BF16 veya 2048’e kadar TMUL INT8 işlemi gerçekleştirebilen giriş türleri. Ayrıca yeni CPU, veri kopyalama ve dönüştürme iş yüklerini CPU’dan boşaltan Data Streaming Accelerator’ı (DSA) destekler.
64 GB paket HBM2E bellek (16 GB’lık dört yığın), yaklaşık 1 TB/sn’lik bir tepe bant genişliği sağlar; bu, çekirdek başına 18,28 GB/sn’de çekirdek başına ~ 1,14 GB HBM2E anlamına gelir. Rakamları bağlam içine koymak için, sekiz DDR5-4800 modülüyle donatılmış 56 çekirdekli Sapphire Rapids işlemci 307,2 GB/sn’ye kadar bant genişliği elde ediyor, bu da çekirdek başına 5,485 GB/sn anlamına geliyor. Bu arada Xeon Max, HBM2E belleğini farklı şekillerde kullanabilir: kod değişikliği gerektirmeyen sistem belleği olarak kullanın; değişiklik kodu gerektirmeyen DDR5 bellek alt sistemi için yüksek performanslı bir önbellek olarak kullanın; yazılım optimizasyonlarını içeren birleşik bellek havuzunun (HBM düz modu) bir parçası olarak kullanın.
İş yüküne bağlı olarak, Intel’in AMX özellikli Xeon Max işlemcisi, aynı iş yükleri için geleneksel FP32 işlemeyi kullanan, şu anda mevcut olan Xeon Ölçeklenebilir 8380 işlemciye göre 3X – 5,3X performans artışı sağlayabilir. Bu arada, moleküler dinamik için model geliştirme gibi uygulamalarda, yeni HBM2E donanımlı CPU’lar, AMD’nin 3D V-Cache özelliğine sahip EPYC 7773X’inden 2,8 kata kadar daha hızlıdır.
Ancak, çeşitli HPC iş yükleri için gerekli olan CPU ve GPU arasındaki veri taşıma yükünü bir şekilde azalttığı için HBM2E’nin Intel için bir başka önemli anlamı daha vardır. Bu bizi bugünün duyurularının ikincisine getiriyor: Veri Merkezi GPU Max Serisi, GPU’ları hesaplıyor.
Veri Merkezi GPU Max: Intel’in Veri Merkezi Yeniliklerinin Zirvesi
Intel’in Veri Merkezi GPU Max bilgi işlem GPU serisi, şirketin ilk olarak 2019’da tanıtılan ve ardından 2020 ~ 2021’de detaylandırılan kod adlı Ponte Vecchio mimarisini kullanacak. Intel’in Ponte Vecchio’su, 100 milyardan fazla transistör (hariç) içerdiği için şimdiye kadar yaratılmış en karmaşık işlemcidir. bellek) 47’den fazla döşeme (8 HBM2E döşeme dahil). Buna ek olarak, ürün, diğer üreticiler tarafından farklı işlem teknolojileri kullanılarak farklı kutucuklar üretildiğinden, Intel’in gelişmiş paketleme teknolojilerini (örn. EMIB) yoğun bir şekilde kullanır.
Intel’in Data Center GPU Max bilgi işlem GPU’ları, şirketin AI ve HPC iş yükleri için özel olarak tasarlanmış Xe-HPC mimarisine güvenecek ve bu nedenle uygun veri formatlarını ve talimatların yanı sıra 512 bit vektör ve 4096 bit matris (tensör) motorlarını da destekleyecek.
Veri Merkezi Maks 1100 | Veri Merkezi Maks 1350 | Veri Merkezi Maks 1550 | AMD İçgüdü MI250X | Nvidia H100 | Nvidia H100 | Rialto Köprüsü | |
---|---|---|---|---|---|---|---|
Form faktörü | PCIe | OAM | OAM | OAM | SXM | PCIe | OAM |
Fayans + Bellek | ? | ? | 39+8 | 2+8 | 1+6 | 1+6 | birçok |
transistörler | ? | ? | 100 milyar | 58 milyar | 80 milyar | 80 milyar | onlardan bir sürü |
Xe HPC Çekirdekleri | Hesaplama Birimleri | 56 | 112 | 128 | 220 | 132 | 114 | 160 Gelişmiş Xe HPC Çekirdeği |
RT Çekirdekleri | 56 | 112 | 128 | – | – | – | ? |
512-bit Vektör Motorları | 448 | 896 | 1024 | ? | ? | ? | ? |
4096-bit Matris Motorları | 448 | 896 | 1024 | ? | ? | ? | ? |
L1 Önbellek | ? | ? | 105 TB/s’de 64 MB | ? | ? | ? | ? |
L2 Rambo Önbellek | ? | ? | 13 TB/sn’de 408MB | ? | 50MB | 50MB | ? |
HBM2E | 48 GB | 96 GB | 3,2 TB/s’de 128 GB | 3,2 TB/sn’de 128 GB/sn | 3,35 TB/s’de 80 GB | 2 TB/s’de 8 GB | ? |
Çoklu GPU GÇ | 8 | 16 | 16 | 8 | 8 | 8 | ? |
Güç | 300W | 450W | 600W | 560W | 700W | 350W | 800W |
Xe-HPG ile karşılaştırıldığında, Xe-HPC önemli ölçüde daha karmaşık bellek ve önbellekleme alt sistemlerine, farklı şekilde yapılandırılmış Xe çekirdeklerine sahiptir (her Xe-HPG çekirdeğinde 16 256-bit vektör ve 16 1024-bit matris motoru bulunurken, her Xe-HPC çekirdeğinde sekiz spor bulunur. 512 bit vektör ve sekiz 4096 bit vektör motoru). Ayrıca, Xe-HPC GPU’lar tekstüre birimleri veya işleme arka uçları içermez, bu nedenle geleneksel yöntemlerle grafik oluşturamazlar. Bu arada, Xe-HPG şaşırtıcı bir şekilde süper bilgisayar görselleştirmesi için ışın izlemeyi destekliyor.
Xe-HPC’nin en önemli bileşenlerinden biri, Intel’in Veri Merkezi GPU Max 1550’nin (aşağıdaki tabloya bakın) oldukça zorlu tensör/matris performansını sağlayan Intel’in Xe Matrix Uzantılarıdır (XMX) – 419’a kadar TF32 TFLOPS ve 1678’e kadar INT8 Intel’e göre TOPS. Elbette, hesaplama GPU geliştiricileri tarafından sağlanan en yüksek performans rakamları önemlidir ancak gerçek dünyadaki uygulamalarda gerçek dünyadaki süper bilgisayarlarda elde edilebilecek performansı yansıtmayabilir. Yine de, Intel’in menzilinin en iyisi Ponte Vecchio’nun çoğu durumda Nvidia’nın H100’ünün önemli ölçüde gerisinde olduğunu ve FP32 Tensor (TF32) hariç tüm durumlarda AMD’nin Instinct MI250X’ine göre somut avantajlar sağlayamadığını fark etmemize yardımcı olamayız.
Veri Merkezi Maks 1550 | AMD İçgüdü MI250X | Nvidia H100 | Nvidia H100 | |
---|---|---|---|---|
Form faktörü | OAM | OAM | SXM | PCIe |
HBM2E | 3,2 TB/s’de 128 GB | 3,2 TB/sn’de 128 GB/sn | 3,35 TB/s’de 80 GB | 2 TB/s’de 80 GB |
Güç | 600W | 560W | 700W | 350W |
Tepe INT8 Vektör | ? | 383 ÜÇ | 133.8 TFLOPS | 102.4 TFLOP |
Tepe FP16 Vektör | 104 TFLOP | 383 TFLOP | 134 TFLOP | 102.4 TFLOP |
Tepe BF16 Vektör | ? | 383 TFLOP | 133.8 TFLOPS | 102.4 TFLOP |
Tepe FP32 Vektör | 52 TFLOP | 47.9 TFLOP | 67 TFLOP | 51 TFLOP |
Tepe FP64 Vektör | 52 TFLOP | 47.9 TFLOP | 34 TFLOP | 26 TFLOP |
Tepe INT8 Tensörü | 1678 ÜSTLER | ? | 1979 ÜSTLER | 3958 ÜÇ* | 1513 ÜSTLER | 3026 ÜSTLER* |
Tepe FP16 Tensörü | 839 TFLOP | ? | 989 TFLOPS | 1979 TFLOP* | 756 TFLOPS | 1513 TFLOP* |
Tepe BF16 Tensörü | 839 TFLOP | ? | 989 TFLOPS | 1979 TFLOP* | 756 TFLOPS | 1513 TFLOP* |
Tepe FP32 Tensörü | 419 TL | 95,7 TFLOP | 989 TFLOP | 756 TFLOP |
Tepe FP64 Tensörü | – | 95,7 TFLOP | 67 TFLOP | 51 TFLOP |
Bu arada Intel, Veri Merkezi GPU Max 1550’nin Nvidia’nın A100 on Riskfuel kredi seçeneği fiyatlandırmasından 2,4 kat daha hızlı olduğunu ve NekRS sanal reaktör simülasyonları için A100’e göre 1,5 kat performans artışı sunduğunu söylüyor.
Intel, üç Ponte Vecchio ürünü sunmayı planlıyor: 128 Xe-HPC çekirdeği, 128 GB HBM2E belleğe ve 600W’a kadar termal tasarım gücüne sahip OAM form faktöründe sınıfının en iyisi Veri Merkezi GPU Max 1550; 112 Xe-HPC çekirdeği, 96 GB bellek ve 450 W TDP ile OAM form faktöründe kısaltılmış Veri Merkezi GPU Max 1350; ve çift geniş FLFH form faktörüyle gelen ve 56 Xe-HPC çekirdeğine sahip bir işlemci taşıyan, 56 GB HBM2E belleğe sahip ve 300 W TDP derecesine sahip giriş seviyesi Veri Merkezi GPU Max 1100.
Bu arada Intel, süper bilgisayar müşterilerine, 1.800 W ve 2.400 W TDP için derecelendirilmiş bir taşıyıcı kart üzerinde dört OAM modülüne sahip Max Serisi Alt Sistemler sunacak.
Intel’in Rialto Köprüsü: Max’i Geliştirmek
Intel bugün, Data Center GPU Max hesaplama GPU’larını resmi olarak tanıtmasının yanı sıra, 2024’te piyasaya çıkacak olan, kod adı Rialto Bridge olan yeni nesil Data Center GPU’suna da bir göz attı. Bu AI ve HPC hesaplama GPU’su, geliştirilmiş Xe- Muhtemelen biraz farklı bir mimariye sahip olan HPC çekirdekleri, ancak Ponte Vecchi tabanlı uygulamalarla uyumluluğu koruyacaktır. Ne yazık ki, bu ek karmaşıklık, yeni nesil amiral gemisi hesaplama GPU’sunun TDP’sini 800W’a çıkaracak, ancak daha basit ve daha az güç tüketen sürümler olacak.
kullanılabilirlik
Hem Intel Xeon Max hem de Intel Data Center GPU Max ürünlerini alan ilk müşterilerden biri, Xeon Max CPU’ları ve Data Center GPU Max cihazlarını (iki CPU) kullanarak 10.000’den fazla blade’e dayalı >2 ExaFLOPS süper bilgisayarını oluşturan Argonne Ulusal Laboratuvarı olacak. ve blade başına altı GPU). Ayrıca Intel ve Argonne, Aurora’nın 2022’nin sonlarında ilgili taraflara sunulacak 128 üretim blade’inden oluşan test geliştirme sistemi Sunspot’u inşa ediyor. Aurora süper bilgisayarı 2023’te çevrimiçi olacak.
Intel’in sunucu üreticileri arasındaki ortakları, Ocak 2023’te Xeon Max CPU’ları ve Data Center GPU Max cihazlarını temel alan makineleri piyasaya sürecek.