Dünyanın en büyük Süper Bilgisayarı Colossus Elon Musk’ın xAI’si 100K H100 GPU’larla çevrimiçi olacak ve yakında 50K NVIDIA H200 GPU’larla boyutu iki katına çıkacak.
NVIDIA, 100K H100 GPU’lar, Yükseltmede Planlanan Ek 50K H100 ve 50K H200 Hızlandırıcılarla oluşturulmuş en güçlü NVIDIA tabanlı yapay zeka eğitim sistemini geliştirdiği için xAI ekibini tebrik ediyor
Elon Musk’un girişimi xAI, birkaç gün önce İşçi Bayramı’nda çevrimiçi olan ‘Colossus’ Süper Bilgisayarı için geliştirmeyi nihayet tamamladı. Musk, Colossus’un baştan sona 122 günde tamamlanan ‘dünyanın en güçlü yapay zeka eğitim sistemi’ olduğunu söyledi. Colossus süper bilgisayarı 100.000 NVIDIA H100 veri merkezi GPU’su kullanıyor ve bu da onu bu kadar çok sayıda H100 kullanan en büyük eğitim kümesi yapıyor.
Bu hafta sonu, @xAI ekibimiz Colossus 100k H100 eğitim kümemizi çevrimiçi hale getirdi. Baştan sona 122 günde tamamlandı.
Colossus dünyadaki en güçlü yapay zeka eğitim sistemidir. Üstelik birkaç ay içinde boyutu ikiye katlanarak 200 bine (50 bin H200s) çıkacak.
Harika…
— Elon Musk (@elonmusk) 2 Eylül 2024
Elon ayrıca önümüzdeki aylarda Colossus’un, Hopper mimarisini kullanan amiral gemisi veri merkezi GPU’su olan 50.000 H200 GPU ile daha yükseltileceğini duyurdu. H200, H100’den çok daha güçlüdür ve belirli üretken yapay zeka ve HPC’de neredeyse %45 daha yüksek bilgi işlem performansı sağlar.
NVIDIA, böylesine büyük bir projeyi yalnızca 4 ayda tamamladığı için xAI ekibini tebrik etti. NVIDIA şunu ekledi:
Colossus tarafından desteklenmektedir
‘S #hızlandırılmış bilgi işlem olağanüstü kazançlarla çığır açan bir performans sunan platform #enerjiverimliliği.
xAI Colossus projesi Haziran ayında Memphis’te başlatıldı ve eğitimleri Temmuz ayında başladı. Bu, Aralık ayına kadar GROK 2’nin yerini alarak dünyadaki en güçlü yapay zekayı sunmaya hazırlayacak GROK 3’ü hazırlayacak. Colossus süper bilgisayarı, sunucusunu xAI’ye kiralayan Oracle ile yapılan anlaşmanın sona ermesinden sonra geldi. Yeni üstküme artık Oracle’ın sağlayabileceğinden daha güçlü ve 50 bin daha fazla H200 GPU’nun eklenmesiyle performansı birkaç ay içinde iki katına çıkacak.
H200, H100’deki 3,35 TB/s’ye kıyasla neredeyse 61 GB daha yüksek bellek ve 4,8 TB/s’lik çok daha yüksek bellek bant genişliği sunuyor. Bununla birlikte, teknik özelliklerdeki bu kadar büyük bir değişiklikle H200, 300W daha fazla güç tüketiyor ve tıpkı Colossus’taki H100’lerin sıvı soğutmayı kullanması gibi sıvı soğutmaya ihtiyaç duyacak.
Şu anda Colossus, 100K NVIDIA GPU’lara ulaşan tek süper bilgisayar, ardından 90K GPU’lu Google AI ve ardından 80K H100 GPU’ları kullanan popüler OpenAI geliyor. Meta AI ve Microsoft AI, 70K ve 60K GPU’ların ardından geliyor.
Haber Kaynağı: @NVIDIADC