AMD, bir MCM tasarımına sahip olan ilk CDNA 2 “Aldebaran” GPU destekli Instinct MI200 serisi hakkında biraz daha bilgi verdi. Instinct MI200 GPU’ları, Hot Chips 34 sırasında AMD Architects, Alan Smith ve Norman James tarafından detaylandırılmıştır.
AMD, Aldebaran “CDNA 2” Instinct MI200 Serisi GPU Blok Şemasına İlk Bakış Sunuyor, HPC’de MCM Tasarımını Özelleştiren İlk
AMD, resmi olarak MCM teknolojisini ilk kullanan şirkettir ve bunu Instinct MI200 kod adlı Aldebaran olan büyük bir ürünle yapıyorlar. AMD Aldebaran GPU, çeşitli biçim ve boyutlarda olacak, ancak hepsi Vega’nın en rafine varyasyonu olan yepyeni CDNA 2 mimarisine dayanıyor. Ayrıntılara girmeden önce ana özelliklerden bazıları aşağıda listelenmiştir:
- AMD CDNA 2 mimarisi – FP64 ve FP32 matris işlemlerini hızlandıran 2. Nesil Matrix Çekirdekleri, teorik FP64 performansına kıyasla 4 kata kadar daha yüksek teorik FP64 performansı sunar. AMD’nin önceki nesil GPU’ları.
- Liderlik Paketleme Teknolojisi – 2.5D Yükseltilmiş Fanout Bridge (EFB) teknolojisine sahip endüstride bir ilk olan çok kalıplı GPU tasarımı, standart modellere kıyasla 1,8 kat daha fazla çekirdek ve 2,7 kat daha yüksek bellek bant genişliği sunar. AMD’nin önceki nesil GPU’ları, saniyede 3,2 terabayt ile endüstrinin en iyi toplam tepe teorik bellek bant genişliğini sunar.
- 3. Nesil AMD Infinity Fabric teknolojisi – 8 adede kadar Infinity Fabric bağlantısı, AMD Instinct MI200’ü 3. Birleştirilmiş CPU/GPU bellek tutarlılığını sağlamak ve sistem verimini en üst düzeye çıkarmak için düğümdeki Gen EPYC CPU’lar ve diğer GPU’lar, CPU kodlarının hızlandırıcıların gücünden faydalanması için daha kolay bir rampa çıkışına olanak tanır.
AMD Instinct MI200 GPU Kalıp Atışı:
AMD Instinct MI200’ün içinde, ikincil ve birincil olmak üzere iki kalıp içeren bir Aldebaran GPU bulunur. Toplam 16 SE için her biri 8 shader motorundan oluşan iki kalıbı vardır. Her Shader Motoru, tam oranlı FP64, paketlenmiş FP32 ve FP16 ve BF16 işlemleri için 2. Nesil Matrix Motoru içeren 14 CU’yu paketler. Tüm GPU, TSMC’nin 6nm işlem düğümünde üretilmiştir ve toplam 58 Milyar transistörle birlikte gelir.
AMD Instinct MI200 GPU Blok Şeması:
Her kalıp, 112 bilgi işlem biriminden veya 7.168 akış işlemcisinden oluşur. Bu, tüm çip için toplam 224 işlem birimi veya 14.336 akış işlemcisine kadar yuvarlar. Aldebaran GPU ayrıca yeni bir XGMI ara bağlantısı tarafından desteklenmektedir. Her yongada bir VCN 2.6 motoru ve ana IO denetleyicisi bulunur. Her GPU yongasında, HBM2e belleği için dört adet 1024 bit bellek denetleyicisi bulunur.
Önbelleğe gelince, her bir GPU yongası, fiziksel olarak 32 dilime bölünmüş toplam 8 MB L2 kapasitesine sahiptir. Her dilim, gelişmiş kuyruğa alma ve tahkim artı gelişmiş atomik işlemlerle 128B/CLK sunar. GCD başına bellek alt sistemi, verimli çalışma voltajı için 64B/CLK ile 32 kanala bölünmüş GCD başına birleştirilmiş 1,6 TB/s bant genişliğine sahip yonga başına 64 GB HBM2e belleği içerir. Paket içi ara bağlantı, iki GCD arasında 400 GB/sn iki bölümlü bant genişliği içerir.
PCI-Express ara bağlantısı için her bir GPU’da kullanılabilen toplam 8 Infinity Fabric ara bağlantısı vardır. Ara bağlantı, 144 GB/s’lik tutarlı bir CPU-GPU aktarım hızında derecelendirilmiştir. Toplam dört MI200 serisi GPU ile harici Infinity Fabric bağlantısını kullanarak 500 GB/sn’ye kadar ölçeklendirebilir veya 100 GB/sn bant genişliği için bir PCIe Gen 4 ESM AIC kullanarak ölçeği genişletebilirsiniz.
AMD Instinct MI200 “Aldebaran GPU” Performans Metrikleri:
Performans açısından AMD, AMG’de 3 kata kadar performans iyileştirmesi ile NVIDIA’nın A100 çözümü karşısında HPC segmentinde çeşitli rekor zaferler elde ediyor.
DRAM’a gelince, AMD, 8192 bit geniş veri yolu arabirimi için 1024 bit arabirimlerden oluşan 8 kanallı bir arabirim ile gitti. Her arayüz 2GB HBM2e DRAM modüllerini destekleyebilir. Bu bize yığın başına 16 GB’a kadar HBM2e bellek kapasitesi vermeli ve toplamda sekiz yığın olduğundan, toplam kapasite miktarı 128 GB’a kadar çıkabilir. Bu, 80 GB HBM2e belleğe sahip A100’den 48 GB daha fazla. Bellek, 3,2 TB/sn’lik tam bant genişliği için 3,2 Gb/sn’lik çılgın bir hızda çalışır. Bu, 2 TB/sn’ye sahip A100 80 GB’den 1,2 TB/sn daha fazla bant genişliği demektir.
AMD Instinct MI200 CDNA 2 “Aldebaran” GPU’ları, dünyanın en hızlı süper bilgisayarına, aynı zamanda 1.1 ExaFLOP hesaplama beygir gücü sunan ve şu anda listede en üstte listelenen dünyanın ilk Exascale makinesi olan Frontier’e güç veriyor. TOP500 ve yeşil500 listeler. AMD ayrıca, yonga mimarisini daha da güçlendirecek ve işleri bir sonraki seviyeye taşıyacak Instinct MI300 APU serisi için gelecek planlarını açıkladı.
AMD Radeon İçgüdü Hızlandırıcıları 2020
Hızlandırıcı Adı | AMD İçgüdü MI300 | AMD İçgüdü MI250X | AMD İçgüdü MI250 | AMD İçgüdü MI210 | AMD İçgüdü MI100 | AMD Radeon İçgüdü MI60 | AMD Radeon İçgüdü MI50 | AMD Radeon İçgüdü MI25 | AMD Radeon İçgüdü MI8 | AMD Radeon İçgüdü MI6 |
---|---|---|---|---|---|---|---|---|---|---|
CPU Mimarisi | Zen 4 (Exascale APU) | Yok | Yok | Yok | Yok | Yok | Yok | Yok | Yok | Yok |
GPU Mimarisi | TBA (CNAD 3) | Aldebaran (CNAD 2) | Aldebaran (CNAD 2) | Aldebaran (CNAD 2) | Arkturus (CNAD 1) | 20 | 20 | 10 | Fiji XT | Kutup 10 |
GPU İşlem Düğümü | 5nm+6nm | 6nm | 6nm | 6nm | 7nm FinFET | 7nm FinFET | 7nm FinFET | 14nm FinFET | 28nm | 14nm FinFET |
GPU Yongaları | 4 (MCM / 3D Yığılmış) 1 (Kalp Başına) |
2 (ÇMY) 1 (Kalp Başına) |
2 (ÇMY) 1 (Kalp Başına) |
2 (ÇMY) 1 (Kalp Başına) |
1 (Monolitik) | 1 (Monolitik) | 1 (Monolitik) | 1 (Monolitik) | 1 (Monolitik) | 1 (Monolitik) |
GPU Çekirdekleri | 28,160? | 14,080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
GPU Saat Hızı | TBA | 1700MHz | 1700MHz | 1700MHz | 1500MHz | 1800MHz | 1725MHz | 1500MHz | 1000MHz | 1237MHz |
FP16 Hesaplama | TBA | 383 TOP | 362 TOP | 181 TOP | 185 TFLOP | 29,5 TFLOP | 26,5 TFLOP | 24.6 TFLOP | 8.2 TFLOP’lar | 5.7 TFLOP’lar |
FP32 Hesaplama | TBA | 95,7 TFLOP | 90,5 TFLOP | 45.3 TFLOP’lar | 23.1 TFLOP’lar | 14.7 TFLOP’lar | 13.3 TFLOP’lar | 12.3 TFLOP’lar | 8.2 TFLOP’lar | 5.7 TFLOP’lar |
FP64 Hesaplama | TBA | 47.9 TFLOP | 45.3 TFLOP’lar | 22.6 TFLOP | 11.5 TFLOP | 7.4 TFLOP’lar | 6.6 TFLOP’lar | 768 GFLOP | 512 GFLOP | 384 GFLOP |
VRAM | 192 GB HBM3? | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32 GB HBM2 | 32 GB HBM2 | 16 GB HBM2 | 16 GB HBM2 | 4 GB HBM1 | 16 GB GDDR5 |
Hafıza saati | TBA | 3.2Gb/sn | 3.2Gb/sn | 3.2Gb/sn | 1200MHz | 1000MHz | 1000MHz | 945MHz | 500MHz | 1750MHz |
Bellek Veriyolu | 8192 bit | 8192 bit | 8192 bit | 4096 bit | 4096 bit veri yolu | 4096 bit veri yolu | 4096 bit veri yolu | 2048 bit veri yolu | 4096 bit veri yolu | 256 bit veri yolu |
Bellek Bant Genişliği | TBA | 3,2 TB/sn | 3,2 TB/sn | 1,6 TB/sn | 1,23 TB/sn | 1 TB/sn | 1 TB/sn | 484 GB/sn | 512 GB/sn | 224 GB/sn |
Form faktörü | OAM | OAM | OAM | Çift Yuvalı Kart | Çift Yuva, Tam Boy | Çift Yuva, Tam Boy | Çift Yuva, Tam Boy | Çift Yuva, Tam Boy | Çift Yuva, Yarım Uzunluk | Tek Yuva, Tam Boy |
soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma | Pasif Soğutma |
Pasifik yaz saati | ~600W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |