Tachyum resmi olarak yayınladı Beyaz kağıt 2018’de tanıtılan 5nm Prodigy Evrensel İşlemcisi.

Tachyum, 5nm Prodigy Evrensel İşlemci Teknik Belgesinde Büyük Rakamlar Vaat Ediyor, NVIDIA’nın H100’ünden 9 Kat Daha Yüksek Performans Verimliliği

Tachyum Prodigy CPU’lar, aynı çip üzerinde CPU, GPU ve TPU görevlerini yürütebilecekleri, rakip ürünlere göre maliyet tasarrufu sağladıkları ve aynı zamanda gerçekten yüksek performans sundukları anlamına gelen evrensel bir işlemci tasarımı kullanır.

Şirket, Prodigy serisi ile üç çip devi AMD, Intel ve NVIDIA ile mücadele etmeyi hedefliyor ve sunumlarında Tachyum, HPC cephesinde Intel’in Xeon CPU’larına göre 4 kat, NVIDIA’nın H100’üne ve 6 kat performans artışı tahmin ediyor. AI ve çıkarım iş yüklerinde ham performansta artış. Çiplerin aynı güçte rakiplerinin sistemlerinin performansının 10 katından fazlasını sunduğu da söyleniyor. CPU’ların ana özelliklerinden bazıları şunlardır:

  • 5,7 GHz’e kadar çalışan 128 yüksek performanslı birleşik 64 bit çekirdek
  • 16 DDR5 bellek denetleyicisi
  • 64 PCIe 5.0 şerit
  • 4 soketli ve 2 soketli platformlar için çoklu işlemci desteği
  • Hem hava soğutmalı hem de sıvı soğutmalı veri merkezleri için raf çözümleri
  • SPECrate 2017 Yaklaşık 4x Intel 8380 ve yaklaşık 3x AMD 7763HPC tamsayı performansı
  • Çift Hassasiyetli Kayan Nokta performansı 3x NVIDIA H100’dür
  • AI FP8 performansı 6x NVIDIA H100’dür

Tachyum, düşük güçlü T8232-LP 32 Çekirdekli CPU’dan 180W TDP’ye ve amiral gemisi T16128-‘e kadar ölçeklenecek olan CPU mimarisini, platformunu ve ürün grubunu detaylandıran Prodigy Evrensel İşlemcisinin tam teknik incelemesini yayınladı. Toplam 128 çekirdeğe sahip AIX.

Tachyum Prodigy Evrensel CPU Mimarisi – Özel 64-bit Tasarım

Tachyum Prodigy, saat başına 8 adede kadar talimatı çözebilen ve kullanımdan kaldırabilen, saat başına 11 adede kadar talimat yayınlayabilen, 48 adede kadar talimatı destekleyen bir talimat kuyruğu ve bir zamanlayıcı ile bir OOD (Sıra Dışı) mimarisini kullanır. 15 giriş derinliği olan 12 kuyruğu destekler. Dört ALU, bir yükleme birimi, bir depolama birimi, bir yükleme/depolama birimi, bir maske birimi ve iki 1024 bit vektör birimi ile birlikte gelir. Her çekirdeğin ayrıca 4096 bitlik bir matris birimi içeren bir AI alt sistemi vardır. Her çekirdek, tek iş parçacıklı bir donanım tasarımıdır.

Önbellek yapılandırmasına gelince, her çekirdek SECDED ECC ile 64 KB I-Cache ve 64 KB D-Cache paketleri. Her çekirdekte ayrıca ikili hata düzeltmeli ECC ve üçlü hata algılama TESPİTİ olan 1 MB L2 bulunur. Aktif çekirdekler ayrıca, paylaşılan bir L3 önbelleği olarak işlev görmek için boşta kalan CPU çekirdeklerinden L2 önbelleğinde toplanabilir.

Prodigy, MESI’ye dayalı yenilikçi bir tutarlılık protokolü olan T-MESI’yi (Tachyum-MESI) kullanır. T-MESI, gecikmeyi ve performansı artıran standart MESI’yi geliştiren optimizasyonlar ekler. Prodigy, çip üzerinde önbellek tutarlılığına ek olarak, hem 2 yuvalı hem de 4 yuvalı platformların tamamen uyumlu olmasını sağlayan Prodigy cihazları arasında donanım tutarlılığını da destekler. Prodigy’nin donanım tutarlılığı, her bir uyumlu cihaz grubu arasında 112 gigabit/sn SERDES bağlantılarının sekiz tam dupleks şeridini kullanır ve uyumlu cihazlar arasında toplam 1.8 terabit/sn bant genişliği sağlar.

Prodigy’nin TLB’si, HPC için 128 TB’a kadar büyük bellek ayak izleri tutabilir. MMU, maksimum performans için donanım tarafından yönetilir ve gelişmiş bir küresel temizleme mekanizması içerir.

Vektör ve Matris Birimleri

Prodigy’nin 2×1024 bit vektör alt sistemleri, Intel’in 2 katı ve AMD üst düzey işlemcilerin 4 katı boyutundadır. Prodigy’nin 4096 matris birimi 16 x 16, 8 x 8 ve 4 x 4 işlemlerini destekler. Vektör ve matris alt sistemleri, FP64, FP32, TF32, BF16, Int8, FP8’in yanı sıra TAI veya Tachyum AI dahil olmak üzere çok çeşitli veri türlerini destekler. FP8’den daha yüksek performans. Prodigy’nin matris işlemleri, Nvidia H100 tarafından da desteklenen 4:2 seyrekliği ve 8:3 oranıyla daha da yüksek performans sağlayan Tachyum’un Süper Seyrekliği dahil olmak üzere en yüksek performans için seyrek veri türlerini destekler.

Seyrek veri türleri, doğrulukta çok küçük bir azalma ile eğitim ve çıkarım için performansı en üst düzeye çıkarır. Daha düşük hassasiyetli veri türleri ve seyreklik, aşağıdaki “Yapay Zeka Endüstri Trendlerinin Öncü Kenarında Dahi” bölümünde daha ayrıntılı olarak tartışılmaktadır. Dağılım/Toplama işlemleri, vektörler ve matrisler için hızlı, verimli yükleme ve depolama sağlar.

Bellek ve G/Ç Alt Sistemleri

Prodigy, kanal başına 2 DIMM’i destekleyen, yaklaşık 1 TB/sn bellek bant genişliği sağlayan, DDR5-7200’e kadar çalışan endüstri lideri on altı DDR5 bellek denetleyicisini entegre eder. Tachyum, bu yıl içinde bellek bant genişliğini 2 TB/sn gibi şaşırtıcı bir hızla iki katına çıkaran “Bant Genişliği Yükseltmesi” adlı yeni bir özelliği duyuruyor olacak. PCIe alt sistemi, 32 PCIe denetleyicili 64 PCIe 5.0 şeridi içerir.

PCIe alt sistemi dört adet x16 PCIe işlevsel bloğu içerir ve x16 bloklarının her biri, x2’ye bölünebilen 8 denetleyici içerir ve yüksek performanslı NIC’lerden büyük NVMe depolama dizilerine kadar uzanan harici aygıtları desteklemek için maksimum esneklik sunar.

x86, Arm, RISC-V Prodigy Runs için Öykünme

Prodigy, x86, Arm ve RISC-V’yi içeren diğer komut seti mimarileri (ISA’lar) için yazılım dinamik ikili çevirisini destekler. x86 yerleşik veri merkezi işlemcisidir, Arm telekom uygulamaları için çok yaygındır ve RISC-V akademik kurumlar arasında popülerdir. İkili çeviri için ek yük yaklaşık %30 – 40’tır, ancak Prodigy rakip işlemcilerin sıklığının yaklaşık iki katı kadar çalışacaktır, bu nedenle performans yerel çalıştırmaya benzer olmalıdır. İkili çeviri, müşterilerin maksimum performans için üretim dağıtımları için Prodigy’nin yerel ISA’sına geçiş yapmasıyla müşteriler ve ortaklar için hızlı, kolay kullanıma hazır değerlendirme ve test sağlamayı amaçlamaktadır.

Tüm çipler, standart 5nm (N5) düğümünün biraz optimize edilmiş bir çeşidi olan ve yerel ve x86, Arm ve RISC-V ikili dosyalarını çalıştıran TSMC’nin 5nm (N5P) işlem düğümünde üretilir. HPC ve yapay zekaya özgü özelliklere gelince, Tachyum Prodigy serisi şunları içerir:

  • Çekirdek Başına 2 x 1024-bit Vektör Birimi
  • Çekirdek Başına 4096-bit Matris İşlemci
  • FP64, FP32, TF32, BF16, Int8, FP8, TAI Veri Tipleri
  • Seyrek Veri Türleri Verimliliği Optimize Eder
  • Düşük Hassasiyetli Veri Türlerini Kullanan Niceleme Desteği
  • Matrisleri verimli bir şekilde depolamak ve yüklemek için Dağılım/Topla

Tachyum Prodigy Evrensel CPU Serisi/Platformu – 180W’dan 900W’a Ölçeklendirme

Amiral gemisi CPU’daki 128 çekirdeğin tümü 5,7 GHz artı saat hızına sahiptir, AI müşterileri 32 TB’a kadar (64 DIMM) DDR5-7200’ü destekleyen 16 adede kadar bellek kanalı alacak. İşlemci ayrıca 64 PCIe Gen 5.0 şeridini sallayacak ve 950W TDP paketinde gelecek.

Tachyum’un sunacağı diğer CPU’lar aşağıdaki teknik özellikler sayfasında listelenmiştir:

çekirdekler Saat Hafıza PCIe Pasifik yaz saati Pazar Segmenti
Prodigy T16128-AIX 128 5.7GHz 16x DDR5-7200 Gen5 x64 950W HPC, Büyük Yapay Zeka
Prodigy T16128-AIM 128 4.5 GHz 16x DDR5-7200 Gen5 x64 700W HPC, Büyük Yapay Zeka
Prodigy T16128-AIE 128 4.0GHz 16x DDR5-7200 Gen5 x64 600W HPC, Büyük Yapay Zeka
Prodigy T16128-HT 128 4.5 GHz 16x DDR5-6400 Gen5 x64 300W Analitik, Büyük Veri
Prodigy T864-HS 64 5.7GHz 8x DDR5-6400 Gen5 x32 300W Bulut, Veritabanları
Prodigy T864-HT 64 4.5 GHz 8x DDR5-6400 Gen5 x32 300W Bulut, Veritabanları
Prodigy T832-HS 32 5.7GHz 8x DDR5-6400 Gen5 x32 300W Skaler İş Yükleri
Prodigy T832-LP 32 3.2GHz 8x DDR5-4800 Gen5 x32 180W Barındırma, Depolama, Kenar

Şimdi bu sadece bir çip ve Tachyum 2 ve 4 yuvalı sistemleri destekleyen tam donanım tutarlılığına izin verecek. Bu, dört Progidy T16128-AIX katmanlı işlemciden 512 çekirdeğe ve 3600 W’a kadar güç demektir.

Prodigy Platformu, dört adede kadar Tachyum Prodigy yongası, 64 16 GB DDR5 DIMM ve 2×200 GbE RoCE NIC’leri barındırabilecek hava soğutmalı 2U sunucu gibi çeşitli raf çözümlerinde sunulacak. Ayrıca, biri sıvı soğutmalı ve diğeri hava soğutmalı olmak üzere 2 versiyonda gelen özel bir 48U raf referans tasarımı vardır. Hava soğutmalı sürüm, toplam 160 yonga için 40 adet 4 soketli 2U sunucuyu desteklerken, sıvı soğutmalı sürüm, toplam 352 yonga için 88 adet 4 soketli 1U sunucuyu destekler. Her iki raf da modüler bir tasarıma sahiptir ve zemin alanını optimize etmek için 2 raf 2 raflı bir kabinde birleştirilebilir. Her sunucu dört cLGA soketi ile birlikte gelir.

Tachyum Prodigy Evrensel CPU Serisi – NVIDIA, Intel ve AMD’yi Aynı Anda Vurmak

Tachyum ayrıca Intel Ice Lake, NVIDIA Hopper / Grace HPC yongaları ve AMD Milan CPU’larına karşı bazı ön performans tahminleri sağlar. Şirket, rekabete karşı 4 kata kadar SPECrate 2017 Tamsayı ve 30 kat Ham Kayan Nokta performansı (FP64) artışı talep ediyor. NVIDIA’dan Hopper H100, birkaç karşılaştırmalı testte kullanıldığı için Tachyum’un gözünü diktiği ana çiptir.

Bahsedilen performans rakamlarından bazıları şunlardır:

  • Çift Hassasiyetli Kayan Nokta Performansında 3x ve NVIDIA H100
  • AI FP8 Performansında 6x ve NVIDIA H100
  • Watt Başına Performansta 9x ve NVIDIA H100
  • Specrate 2017 INT Performansında 4x vs Intel Xeon Platinum 8380
  • FP64 Performansında 30x ve Intel Xeon Platinum 8380 karşılaştırması

Tachyum ayrıca Intel Ice Lake, NVIDIA Hopper / Grace HPC yongaları ve AMD Milan CPU’larına karşı bazı ön performans tahminleri sağlar. Şirket, rekabete karşı 4 kata kadar SPECrate 2017 Tamsayı ve 30 kat Ham Kayan Nokta performansı (FP64) artışı talep ediyor. NVIDIA’dan Hopper H100, birkaç karşılaştırmalı testte kullanıldığı için Tachyum’un gözünü diktiği ana çiptir.

Prodigy T16128-AIX, yaklaşık 90 TFLOP FP64 perf (seyreklik ile) sunar. Şirket, 960 TFLOP FP64 HPC performansı sunan NVIDIA H100 DGX POD rafına kıyasla 6,2 PetaFlop’a kadar HPC FP64 beygir gücü sağladığı tahmin edilen Hava soğutmalı bir Prodigy raf kullanıyor. Üst düzey yongaları sürdürebilen sıvı soğutmalı Prodigy, 12,9 PetaFLOP’ta iki kattan fazla performans sunmalıdır.

Tachyum, 2023’ün ikinci yarısında beklenen hacimli üretim ile ilk Prodigy gemilerinin bu yıl örneklemeye başlamasını bekliyor. Prodigy 2 olarak bilinen yeni nesil yükseltme, Tachyum’un yol haritasında da listeleniyor ve yeni bir 3nm mimarisi sunacak. daha da fazla çekirdek, daha yüksek bellek bant genişliği, PCIe 6.0 + CXL desteği ve gelişmiş bağlantı. Bununla ilgili örnekleme 2024’ün ikinci yarısında başlamalıdır.



genel-17