Meta yakın zamanda bir çalışma yayınladı 16.384 Nvidia H100 80GB GPU içeren bir kümede Llama 3 405B model eğitim çalışmasının ayrıntılarını veriyor. Eğitim çalışması 54 gün boyunca gerçekleşti ve küme bu süre zarfında 419 beklenmeyen bileşen arızasıyla karşılaştı, ortalama her üç saatte bir arıza. Arıza vakalarının yarısında, GPU’lar veya yerleşik HBM3 bellekleri suçluydu.

Eski süper bilgisayar atasözünde söylendiği gibi, büyük ölçekli sistemlerdeki tek kesinlik başarısızlıktır. Süper bilgisayarlar, on binlerce işlemci, yüz binlerce başka çip ve yüzlerce kilometre kablo kullanan son derece karmaşık cihazlardır. Karmaşık bir süper bilgisayarda, her birkaç saatte bir bir şeyin bozulması normaldir ve geliştiriciler için asıl numara, bu tür yerel bozulmalara rağmen sistemin çalışır durumda kalmasını sağlamaktır.



genel-21