
Bu ayın başlarında, bu işlemcilere dayanan ilk kümelerden biri olan 144 NVIDIA H200 GPU’lu 18 makine kümesi olan Exaailabs’ın Exacluster’ı bildirdik. O zamandan beri, kümenin inşasını kolaylaştıran şirket olan Hydra Host, bize sistem hakkında ek ayrıntılar verdi. Küme, önemli bir rol oynayan Hydra Host’dan çok sayıda özelleştirme ile Lenovo sistemleri kullanıyor. Makine, Hydra’nın Brokkr platformu aracılığıyla sahibi tarafından kullanılmadığı zaman – kiralanabilir.
Çok fazla hesaplama gücü
Kümenin omurgası, 144 NVIDIA H200 GPU ve 20TB HBM3E belleği veya sistem başına sekiz ile donatılmış 18 Lenovo düğümünden oluşur – AI için 570 FP8 Petatop’un hesaplama performansını mümkün kılar. 16 düğüm, büyük hesaplama ve bellek performansı gerektiren eğitim için Hydrahost tarafından yapılandırılır ve ince ayarlanırken, geri kalan ikisi çıkarım düğümü olarak hizmet eder. Buna ek olarak, Hydra Host Brokkr platformunu GPU sağlama, yönetim ve uzaktan kiralama için kurdu (daha sonra bu konuda daha fazla).
Hydra Host, kümenin ihtiyaçlarına göre uyarlanmış yüksek performanslı bir ağ mimarisi tasarlamak için ComputAcenter ile işbirliği yaptı. Kurulum, Sunucu başına çift 200Gbps bağlantılar ve 400Gbps Dell Ethernet anahtarları dahil olmak üzere, Doğu-Batı Trafik için 3.2Tbps Infiniband ve Kuzey-Güney iletişim için 400Gbps Ethernet kullanıyor. ComputAcenter’ın ağ mühendisleri, kesintisiz uyumluluk için NVIDIA’nın referans mimarisiyle uyumlu tüm bileşenleri sağladı.
Hydra sunucusu bir sözcüsü Andrea Holt, “H200 GPU’lar (16 birbirine bağlı ve iki çıkarım düğümü) ile 18 Lenovo düğümünü sağladık, ağ mimarisini Computacenter ile işbirliği içinde tasarladık ve Patmos aracılığıyla kolokasyonu kolaylaştırdı.”
Kümenin kendisi, genel amaçlı bilgi işlem açısından bile oldukça güçlüdür. Sunucular, 36 TB DDR5 belleği ve 270 TB NVME katı hal depolama ile eşleştirilmiş 192 96 çekirdekli işlemciye (toplam 3.456 çekirdek için) sahiptir. Depolama alanının kolayca genişletilebilmesi için yedek koylar vardır. SuperComputer, Hydrahost tarafından özel olarak inşa edilmiş bir ağ kullanır.
Şirket ayrıca kolokasyonu işlemek, yeterli güç (yaklaşık 100kW) ve güç aç ve sıcak makineler için soğutma için patmos getirdi.
En iyi fiyata en iyi performans
Exacluster, tam bir sunucu yerine tek bir 8 yollu H200 süpürgesel ile karşılaştırılabilir, makine başına ortalama 277.777 $ ‘a mal oluyor. İşte ilginç hale geliyor. Bu fiyatı kim kolaylaştırdı?
Bir yandan, Hydra Host yakın bir NVIDIA ortağıdır ve sadece NVIDIA GPUS’u hizmet olarak sunar. Ayrıca, brokkr yazılımı öncelikle CUDA için optimize edilmiştir. Öte yandan, EXAAI NVIDIA tarafından desteklenen bir şirkettir, böylece potansiyel olarak tercihli fiyatlandırma elde edebilir.
Hydra baş satış mühendisi Ryan Horjus, “Müşterilerimize ihtiyaçları için ve en iyi fiyata doğru GPU’ları elde etme konusunda pazarda en iyisiyiz.” Dedi. “Bu küme, bir mimarlık tasarımından ve başlangıç programlarından NVIDIA tarafından desteklendi. Hydra, diğer şirketler için yaptığımız gibi EXA için ele aldı.”
Hydra ayrıca yeni başlayanlar için özel çözümler oluşturma konusunda uzmanlaşmıştır ve hatta kullanılmadığında makinelerinden para kazanır.
Horjus, “Hydra, toplu alım yoluyla daha iyi fiyatlandırma için girişimlerin kendi kümelerine girmelerine yardımcı oldu.” “Ağımız aracılığıyla ideal fiyatlandırma elde edebilirler. Ayrıca Brokkr yönetim platformu aracılığıyla kullanılmadığında sunuculardan para kazanabilirler.”
Brokkr’dan bahsetmişken, bir GPU yönetimi ve sağlama yazılımı ve GPU’lar için para kazanma platformudur. Hydra’nın baş teknoloji görevlisi ve kurucu ortağı Ariel Deschapell, donanımlarını müşterilerin ellerine almak ve onların ödenmesi için veri merkezlerine ve yeni başlayanlara anahtar teslim yazılım çözümü sunuyor.
Deschapell, “Anahtar özelliklerinden biri otomatik çıplak metal sağlama ve yaşam döngüsü yönetimidir.” “Bu, platformun temel sunucu işletim sistemini ve ürün yazılımını yapılandırma ve yönetme, sürücüleri ve diğer destekleyici yazılımları ayarlama ve GPU ve diğer bileşenlerde testler çalıştırması anlamına gelir. Bu, teslimat sürecini önemli ölçüde hızlandırır ve standartlaştırır, Sunucular ve GPU’larda zaman, kullanılmayan sunucuları daha sonra Brokkr platformundaki diğer kullanıcılara, kapasitenin değişmesi gerekiyorsa. “

