Elon Musk’ın X’i (eski adıyla Twitter), dünyanın en güçlü eğitim sistemini çevrimiçi hale getirdi. Colossus süper bilgisayarı, eğitim için 100.000’e kadar Nvidia H100 GPU kullanıyor ve önümüzdeki aylarda 50.000 Nvidia H100 ve H200 GPU ile genişlemeye hazırlanıyor.
“Bu hafta sonu xAI ekibi Colossus 100K H100 eğitim kümemizi çevrimiçi hale getirdi,” Elon Musk X gönderisinde yazdı“Baştan sona 122 günde tamamlandı. Colossus dünyadaki en güçlü AI eğitim sistemidir. Dahası, birkaç ay içinde 200K’ya (50K H200) kadar iki katına çıkacak.”
Yüksek teknoloji devinin başkanı Michael Dell’e göre Dell, Colossus sistemini hızla geliştirdi ve bir araya getirdi. Bu, sunucu üreticisinin son birkaç yıldaki AI patlaması sırasında AI sunucuları dağıtma konusunda önemli deneyim kazandığını gösteriyor.
Elon Musk ve şirketleri son zamanlarda süper bilgisayarlarla ilgili duyurular yapmakla meşguldü. Ağustos sonlarında Tesla, 50.000 Nvidia H100 GPU ve 20.000 Tesla’nın Dojo AI yonga büyüklüğündeki çiplerinden oluşan Cortex AI kümesini duyurdu. Daha öncesinde, Temmuz sonlarında X, 100.000 sıvı soğutmalı H100 GPU’dan oluşan Memphis Süperkümesi’nde AI eğitimini başlattı. Bu süper bilgisayarın en az 150 MW güç tüketmesi gerekiyor çünkü 100.000 H100 GPU yaklaşık 70 MW tüketiyor.
Tüm bu kümeler resmen faaliyette olsa ve hatta AI modellerini eğitse de, bugün gerçekte kaçının çevrimiçi olduğu tamamen belirsiz. Birincisi, bu süper kümelerin ayarlarını hata ayıklamak ve optimize etmek biraz zaman alıyor. İkincisi, X’in yeterli güce sahip olduklarından emin olması gerekiyor ve Elon Musk’ın şirketi Memphis süper bilgisayarını çalıştırmak için 14 dizel jeneratör kullanıyor olsa da, bunlar hala tüm 100.000 H100 GPU’yu beslemeye yetmiyordu.
xAI’nin Grok sürüm 2 büyük dil modeli (LLM) eğitimi 20.000’e kadar Nvidia H100 GPU gerektirdi ve Musk, Grok 3 gibi gelecekteki sürümlerin eğitim için daha da fazla kaynağa, potansiyel olarak yaklaşık 100.000 Nvidia H100 işlemciye ihtiyaç duyacağını öngördü. Bu amaçla, xAI’nin Grok 3’ü eğitmek ve ardından bu model üzerinde çıkarım yapmak için geniş veri merkezlerine ihtiyacı var.