Università di Bologna ve Cineca’dan bir grup araştırmacı, deneysel bir sekiz düğümlü 32 çekirdekli RISC-V süper bilgisayar kümesini keşfetti. Gösteri, bir grup alçakgönüllü SiFive’ın Freedom U740 sisteminin çip üzerinde bile süper bilgisayar uygulamalarını nispeten düşük güçte çalıştırabileceğini gösterdi. Ayrıca, küme iyi çalıştı ve temel düzeyde yüksek performanslı bilgi işlem yığınını destekledi.
RISC-V’ye duyulan ihtiyaç
Açık kaynaklı RISC-V komut seti mimarisinin avantajlarından biri, performans, güç tüketimi ve maliyet arasında çok rekabetçi bir denge sağlayacak belirli bir uygulamaya yönelik son derece özel bir RISC-V çekirdeği oluşturmanın göreli basitliğidir. RISC-V’yi gelişmekte olan uygulamalar ve belirli bir iş yüküne hitap eden çeşitli yüksek performanslı bilgi işlem projeleri için uygun hale getirir. Grup, RISC-V tabanlı platformların yazılım açısından yüksek performanslı bilgi işlem (HPC) için işlev görebileceğini kanıtlamak için kümeyi araştırdı.
“Monte Cimone, güçlü kayan nokta performansı elde etmeyi amaçlamıyor, ancak ‘boru hazırlamak’ ve ara bağlantı dahil bir HPC üretim yığını sağlayabilen çok düğümlü bir RISC-V kümesini entegre etmenin zorluklarını araştırmak amacıyla inşa edildi. RISC-V donanımında , depolama ve güç izleme altyapısı” projenin açıklaması (yeni sekmede açılır) okur (aracılığıyla SonrakiPlatform (yeni sekmede açılır)).
Ekip, deneyleri için hazır bir Monte Cimone kümesi (yeni sekmede açılır) Bir İtalyan HPC şirketi E4 tarafından inşa edilen 1U form faktöründe dört adet çift kartlı blade sunucudan oluşur (E4’ün Monte Cimone kümesinin altı kanattan oluştuğunu unutmayın). Monte Cimone, ‘HPC ile ilgili yazılım yığınlarını ve HPC uygulamalarını RISC-V mimarisine taşımak ve ayarlamak için’ bir platformdur, bu nedenle seçim haklıydı.
Küme
Monte Cimone 1U makineleri, SiFive’ın 1.4 GHz’e kadar çalışan dört U74 çekirdeğini ve şirketin tescilli Mix+Match teknolojisini kullanan bir S7 çekirdeğini ve 2MB L2 önbelleğini entegre eden heterojen çok çekirdekli Freedom U740 SoC tarafından desteklenen iki SiFive’ın HiFive Eşsiz geliştirici anakartını kullandı. . Ayrıca her platformda 16 GB DDR4-1866 bellek ve 1 TB NVMe SSD bulunur.
Her düğüm ayrıca bir Mellanox ConnectX-4 FDR 40 Gbps ana bilgisayar kanal bağdaştırıcısı (HCA) kartına sahiptir, ancak Linux çekirdeği aygıt sürücüsünü tanıyabilmesine ve Mellanox OFED yığınını yönetmek için çekirdek modülünü takabilmesine rağmen bazı nedenlerden dolayı RDMA çalışmadı. . Bu nedenle, altı düğümden ikisi, mevcut düğümler arası bant genişliğini en üst düzeye çıkarmak ve RDMA eksikliğini telafi etmek için 56 Gbps verime sahip Infiniband HCA kartlarıyla donatıldı.
Deneyin kritik kısımlarından biri, süper bilgi işlem iş yüklerini kullanıma sunmak için gereken temel HPC hizmetlerini taşımaktı. Ekip, NFS, LDAP ve SLURM iş planlayıcısının RISC-V’ye taşınmasının nispeten basit olduğunu bildirdi; daha sonra veri örneklemeye adanmış bir ExaMon eklentisi, taşıma katmanı yönetimi için bir aracı ve depolama için bir veritabanı kurdular.
Sonuçlar
Gerçek HPC iş yükleri için yazılım taşıma amaçları için tasarlanmış düşük güçlü bir küme kullanmak mantıklı olmadığından, ekip GFLOPS performansını ve bellek bant genişliğini ölçmek için HPL ve Stream kıyaslamalarını çalıştırdı. Yine de sonuçlar karışık bir çantaydı.
SiFive’ın U74 çekirdeğinin en yüksek teorik performansı 1 GFLOPS’tur, bu da bir Freedom U740 SoC’nin en yüksek teorik performansının 4 GFLOPS olması gerektiğini gösterir. Ne yazık ki, her düğüm HPL’de yalnızca sürdürülebilir bir 1.86 GFLOPS performansına ulaştı; bu, sekiz düğümlü bir kümenin en yüksek hesaplama kapasitesinin, mükemmel bir doğrusal ölçekleme varsayıldığında 14.88 GFLOPS basketbol sahasında olması gerektiği anlamına gelir. Tüm küme, tahmin edilen ulaşılabilir zirvenin %85’i olan 12.65 GFLOPS’luk sürekli bir zirve performansına ulaştı. Bu arada, SoC’nin nispeten zayıf ölçeklenmesi nedeniyle, 12.65 GFLOPS, tüm makinenin teorik zirvesinin %39,5’idir; bu, U740 modelinin zayıf ölçeklemesini dikkate almazsak, bir deney için o kadar da kötü olmayabilir.
Bellek bant genişliği ile ilgili olarak, her düğüm bir DDR4-1866 modülü kullanarak yaklaşık 14.928 GB/sn bant genişliği sağlamalıdır. Gerçekte, hiçbir zaman 7760 MB/sn’nin üzerine çıkmadı, bu da iyi bir sonuç değil. 4 iş parçacıklı bir iş yükü yalnızca mevcut en yüksek bant genişliğinin %15,5’inden daha fazla olmayan bir bant genişliğine ulaştığından, yukarı akışta, değiştirilmemiş Akıştaki gerçek kıyaslama sonuçları daha da az etkileyicidir; bu, diğer kümelerin sonuçlarının oldukça altındadır. Bir yandan, bu sonuçlar Freedom U740’ın vasat bellek alt sistemini gösterirken, diğer yandan yazılım optimizasyonlarının bazı şeyleri iyileştirebileceğini de gösteriyor.
Güç tüketimi açısından, Monte Cimone kümesi tam da vaat ettiğini sunuyor – düşük. Örneğin, bir SiFive Freedom U740’ın gerçek güç tüketimi, CPU yoğun HPL iş yükleri altında 5,935 W’a ulaşırken, boştayken yaklaşık 4,81 W tüketir.
Özet
Araştırmacılar tarafından kullanılan Monte Cimone kümesi, zaten iyi olan bir HPC yazılım yığınını ve uygun test uygulamalarını mükemmel bir şekilde çalıştırma yeteneğine sahiptir. Ek olarak, SiFive’ın HiFive Unmatched kartı ve E4’ün sistemleri yazılım taşıma amaçlarına düşkündür, bu nedenle NFS, LDAP, SLURM, ExaMon ve diğer programların sorunsuz çalışması hoş bir sürpriz oldu. Bu arada, RDMA desteğinin olmaması değildi.
“Bildiğimiz kadarıyla, bu, tamamen işlevsel olan ve temel bir HPC yazılım yığınını destekleyen, RISC-V ISA’nın olgunluğunu ve ticari olarak mevcut RISC-V bileşenlerinin ilk neslini kanıtlayan ilk RISC-V kümesidir.” ekip raporunda yazdı. “Sistem tarafından tanınan, ancak henüz RDMA iletişimini destekleyemeyen Infiniband ağ bağdaştırıcılarının desteğini de değerlendirdik.”
Ancak kümenin gerçek performans sonuçları beklentilerin altında kaldı. Bu tür etkiler, U740’ın vasat performansı ve yetenekleri koşulu altında kaldı, ancak yazılımın hazır olması bir rol oynadı. Bununla birlikte, HPC yazılımı RISC-V tabanlı sistemler üzerinde çalışabilirken, beklentileri karşılayamaz. Geliştiriciler programları açık kaynak mimarisi için optimize ettikten ve uygun donanım piyasaya sürüldükten sonra değişecektir.
Gerçekten de araştırmacılar, gelecekteki çalışmalarının yazılım yığınını geliştirmeyi, RDMA desteği eklemeyi, dinamik güç ve termal yönetimi uygulamayı ve RISC-V tabanlı hızlandırıcıları kullanmayı içerdiğini söylüyorlar.
Donanıma gelince, SiFive 128 adede kadar yüksek performanslı çekirdeğe sahip SoC’ler oluşturabilir. Bu tür işlemciler veri merkezi ve HPC iş yükleri içindir, bu nedenle uygun performans ölçeklenebilirliğine ve uygun bir bellek alt sistemine sahip olmalarını bekleyin. Ayrıca, SiFive bu pazarlara girdiğinde, yazılım uyumluluğunu ve optimizasyonlarını sağlaması gerekecek, bu nedenle çip üreticisinin yazılım geliştiricilerini RISC-V ISA için programlarını değiştirmeye teşvik etmesini bekleyin.