Modern büyük sinir ağları, çok sayıda bileşene sahip sistemler üzerinde eğitilir. Ve ne kadar çok bileşen olursa, arıza olasılığı da o kadar yüksek olur. Meta*’nın yakın tarihli bir raporu, şirketin Nvidia H100 hızlandırıcılarıyla yaklaşık üç saatte bir çökme yaşadığını ortaya koyuyor.


fotoğraf: Nvidia

Llama 3 405B’yi 16.384 Nvidia H100 80GB hızlandırıcı içeren bir küme üzerinde eğitirken, 54 gün boyunca 419 arıza meydana geldi; bu da ortalama her üç saatte bir arıza meydana geliyordu. Vakaların %58,7’sinde ya GPU’lar ya da HBM3 bellekleri suçluydu. Genel olarak, bu tür karmaşık sistemlerdeki başarısızlıklar normdur ve soru daha çok uzmanların bu başarısızlıklarla başa çıkma becerisiyle ilgilidir. Meta* örneğinde ekip etkili eğitim süresinin %90’ından fazlasını kurtardı.

Llama 3 405B sinir ağı eğitim kümesi, yaklaşık altı saatte bir Nvidia H100 hızlandırıcılarının arızalarını kaydetti

Sorunlu GPU’lar özel araçlar kullanılarak belirlendi. Bu araçlar sorunlu iletişimlere öncelik vererek gecikmeli GPU’ların etkili bir şekilde tespit edilmesini ve zamanında çözümlenmesini sağladı ve genel eğitim verimliliğini korurken yavaşlamaların en aza indirilmesini sağladı.

*Meta, Rusya’da aşırılıkçı bir örgüt olarak tanınmakta ve faaliyetleri yasaktır.



genel-22