Bir süper bilgisayar inşa etmek her zaman zordur, ancak endüstrinin ilk exascale sınıfı sistemini oluşturmak, tamamen beklenmedik bir şeyle karşılaşmak ve donanım ve yazılımla çok fazla çalışma gerektiriyor. Ne yazık ki, bu, Oak Ridge Ulusal Laboratuvarı’nın sayısız donanım arızası olmadan ancak bir gün sürebilen Frontier süper bilgisayarında olabilir.
ORNL’nin Frontier’i, AMD’nin 64 çekirdekli EPYC Trento işlemcilerini, Instinct MI250X hesaplama GPU’larını ve 21 MW güçte HPE’nin Slingshot ara bağlantılarını kullanarak 1.685’e kadar FP64 ExaFLOPS en yüksek performansı sağlamak üzere tasarlanmış endüstrinin ilk sistemidir. HPE sistemi oluşturdu ve Cray EX (yeni sekmede açılır) Öncelikle ultra hızlı süper bilgisayarlar için ölçeklendirme uygulamaları için tasarlanmış mimari.
Kağıt üzerinde, Frontier süper bilgisayarı son derece iyi görünüyor ve makine sisteminin donanım parçaları teslim edilmiş olsa da, donanımla ilgili sorunlar, makinenin çevrimiçi olmasını ve yaklaşık 1 FP64 ExaFLOPS performans gerektiren araştırmacıların kullanımına açık olmasını engelliyor gibi görünüyor.
Oak Ridge Leadership Computing Facility (OLCF) program direktörü Justin Whitt, “Donanımdaki sorunlar üzerinde çalışıyoruz ve anladığımızdan emin oluyoruz” dedi. İçindeHPC (yeni sekmede açılır). “Bu ölçekte başarısızlıklar yaşayacaksınız. Bu büyüklükteki bir sistemdeki arızalar arasındaki ortalama süre, günler değil, saatler.”
Frontier’in olası donanım arızalarıyla ilgili söylentiler bir süredir ortalıkta dolaşıyor. Bazıları sistemin Slingshot ara bağlantısıyla ilgili sorunlar yaşadığını söyledi. İçindeHPC (yeni sekmede açılır) Öykü. Ek olarak, diğerleri AMD’nin Instinct MI250X hesaplama GPU’larının bu yıl beklendiği kadar güvenilir olmadığını belirtti. Daha fazla sayıda akış işlemcisi ve yüksek saat hızına sahip X sürümünün yalnızca belirli müşteriler tarafından kullanılabileceğini unutmayın.
Bay Whitt, sistemin Instinct veya Slingshot ile ilgili herhangi bir özel sorun yaşadığını doğrulamadı, ancak makinenin çok sayıda donanım sorunu yaşadığını vurguladı.
“Birçok zorluk, bunların etrafında odaklanıyor. [GPUs], ancak gördüğümüz zorlukların çoğu bu değil” dedi OLCF başkanı. “Büyük bir parçası olan parça arızalarının ortak suçluları arasında oldukça iyi bir yayılma. Bu noktada AMD ürünleri konusunda çok fazla endişemiz olduğunu düşünmüyorum.”
Oak Ridge Ulusal Laboratuvarı’nın Frontier süper bilgisayarı, HPE’nin Slingshot ara bağlantılarıyla Cray EX mimarisini, AMD’nin EPYC CPU’larını ve AMD’nin Instinct hesaplama GPU’larını kullanan tek sistem değil. Örneğin, Finlandiya’nın Lumi süper bilgisayarı (Cray EX, EPYC Milan, Instinct MI250X hesaplama GPU’ları) 550 PetaFLOPS en yüksek performansı sunar ve resmi olarak dünyanın en güçlü üçüncü süper bilgisayarı olarak derecelendirilir. Belki de sorun, toplamda 60 milyon parça kullanan makinenin ölçeğinde geçerlidir.
Başlangıçta 2022’de çevrimiçi olacağı vaat edilen Frontier süper bilgisayarının, henüz resmi olarak konuşlandırılmadığı göz önüne alındığında, 2023’ten itibaren araştırmacılara sunulup sunulmayacağını yalnızca zaman gösterecek.