Elon Musk’un yeni pahalı projesi xAI Colossus AI süper bilgisayarı ilk kez detaylandırıldı. YouTuber ServeTheHome 100.000 GPU canavarındaki Supermicro sunucularına erişim izni verildi ve bu, süper bilgisayarın çeşitli yönlerini gösterdi. Musk’un xAI Colossus üstkümesi, 122 günlük bir montajın ardından neredeyse iki aydır yayında.
100.000 GPU Kümesinin İçinde Neler Var?
ServeTheHome’dan Patrick, sunucunun çeşitli bölümlerinin etrafındaki bir kamerayı çekerek, sunucunun işlemlerinin kuşbakışı görünümünü sağlıyor. Süper bilgisayarın güç tüketimi ve pompa boyutları gibi daha ince ayrıntıları, bir gizlilik anlaşması kapsamında açıklanamadı ve xAI, yayınlanmadan önce videonun bazı kısımlarını bulanıklaştırdı ve sansürledi. Supermicro GPU sunucuları gibi en önemli şeyler yukarıdaki görüntülerde çoğunlukla sağlam bırakılmıştır.
GPU sunucuları, her biri sekiz H100 GPU içeren bir sunucu çözümü olan Nvidia HGX H100’lerdir. HGX H100 platformu, Supermicro’nun 4U Evrensel GPU Sıvı Soğutmalı sistemi içinde paketlenmiştir ve her GPU’ya çalışırken kolayca değiştirilebilen sıvı soğutma sağlar. Bu sunucular, her biri sekiz sunucuyu barındıran ve raf başına 64 GPU oluşturan rafların içine yüklenir. 1U manifoldlar her HGX H100’ün arasına sıkıştırılarak sunucuların ihtiyaç duyduğu sıvı soğutmayı sağlar. Her rafın altında başka bir Supermicro 4U ünitesi bulunur; bu kez yedek pompa sistemi ve raf izleme sistemi bulunur.
Bu raflar sekizli gruplar halinde eşleştirilerek dizi başına 512 GPU elde edilir. Her sunucuda dört adet yedek güç kaynağı bulunur; GPU raflarının arka tarafında 3 fazlı güç kaynakları, Ethernet anahtarları ve tüm sıvı soğutmayı sağlayan raf boyutunda bir manifold bulunur. Colossus kümesinde 1.500’den fazla GPU rafı veya 200’e yakın raf dizisi vardır. Nvidia CEO’su Jensen Huang’a göre bu 200 dizinin GPU’ları yalnızca üç hafta içinde tamamen kuruldu.
Modelleri sürekli eğiten bir Yapay Zeka üstkümesinin yüksek bant genişliği gereksinimleri nedeniyle, xAI, ağ bağlantısı açısından aşırıya kaçmanın ötesine geçti. Her grafik kartında 400 GbE’de özel bir NIC (ağ arabirim denetleyicisi) bulunur ve sunucu başına ekstra 400 Gb NIC bulunur. Bu, her HGX H100 sunucusunun saniyede 3,6 Terabit Ethernet’e sahip olduğu anlamına gelir. Ve evet, kümenin tamamı InfiniBand veya süper bilgi işlem alanında standart olan diğer egzotik bağlantılar yerine Ethernet üzerinde çalışıyor.
Elbette, Grok 3 sohbet robotu gibi yapay zeka modellerinin eğitimine dayalı bir süper bilgisayarın çalışması için GPU’lardan daha fazlasına ihtiyacı var. Colossus’taki depolama ve CPU bilgisayar sunucularına ilişkin ayrıntılar daha kısıtlıdır. Patrick’in videosunda görebildiğimiz kadarıyla ve blog yazısıbu sunucular da çoğunlukla Supermicro kasasındadır. İçinde bir tür x86 platform CPU’su bulunan NVMe ileri 1U sunucu dalgaları, depolamayı ve CPU hesaplamayı, ayrıca arkadan girişli sıvı soğutmayla birlikte barındırır.
Dışarıda, yoğun şekilde paketlenmiş Tesla Megapack pil kümeleri görülüyor. Dizinin bankalar arasındaki milisaniyelik gecikme süresiyle başlama ve durma doğası, elektrik şebekesinin veya Musk’un dizel jeneratörlerinin üstesinden gelemeyeceği kadar fazlaydı, bu nedenle bir miktar Tesla Megapack (her biri 3,9 MWh’ye kadar tutan) enerji olarak kullanılıyor elektrik şebekesi ile süper bilgisayar arasındaki tampon.
Colossus’un Kullanımı ve Musk’un Süper Bilgisayarı Kararlı
Nvidia’ya göre xAI Colossus süper bilgisayarı şu anda dünyanın en büyük yapay zeka süper bilgisayarıdır. Dünyanın önde gelen süper bilgisayarlarının çoğu, birçok yüklenici veya akademisyen tarafından hava durumu, hastalık veya diğer zor hesaplama görevlerini incelemek için kullanılabilen araştırma alanları olsa da Colossus, X’in (eski adıyla Twitter) çeşitli AI modellerinin eğitilmesinden yalnızca sorumludur. Öncelikle Elon’un “uyanma önleyici” sohbet robotu Grok 3 yalnızca X Premium abonelerine açıktır. ServeTheHome’a ayrıca Colossus’un “geleceğin” yapay zeka modellerini eğittiği söylendi; kullanımları ve yetenekleri sözde günümüzün amiral gemisi yapay zekasının gücünün ötesinde olan modeller.
Colossus’un inşaatının ilk aşaması tamamlandı ve küme tamamen çevrimiçi, ancak hepsi bitmedi. Memphis süper bilgisayarı yakında 50.000 ek H100 GPU ve 50.000 yeni nesil H200 GPU ile GPU kapasitesini ikiye katlayacak şekilde yükseltilecek. Bu aynı zamanda güç tüketimini iki katından fazla artıracak ki bu, Musk’ın Temmuz ayında tesise eklediği 14 dizel jeneratörün kaldıramayacağı kadar fazla. Bu aynı zamanda Musk’un Colossus’un içinde 300.000 H200 vaadinin de altında kalıyor, ancak bu, yükseltmelerin 3. aşaması olabilir.
“Giga Texas” Tesla fabrikasındaki 50.000 GPU’lu Cortex süper bilgisayarı da Musk şirketinin elinde. Cortex, Tesla’nın otonom robotları ve diğer yapay zeka projelerinin yanı sıra, yalnızca kamera beslemesi ve görüntü algılama yoluyla Tesla’nın kendi kendini yöneten yapay zeka teknolojisini eğitmeye kendini adamıştır. Tesla ayrıca yakında Buffalo, New York’ta 500 milyon dolarlık bir proje olan Dojo süper bilgisayarının inşasını da görecek. Baidu CEO’su Robin Le gibi endüstri spekülatörleri, balon patladığında yapay zeka şirketlerinin %99’unun çökeceğini tahmin ederken, Musk’un rekor kıran yapay zeka harcamalarının geri tepip sonuç vermeyeceğini henüz bilmiyoruz.