Üst düzey bir Alphabet uzmanına göre, Veri Merkezi GPU’ları kullanım oranlarına bağlı olarak yalnızca bir ila üç yıl dayanabiliyor. Teknoloji Fonu. GPU’lar, yapay zeka eğitimi ve çıkarımı için tüm ağır işleri üstlendiğinden, her zaman önemli ölçüde yük altında olan bileşenlerdir ve bu nedenle diğer bileşenlere göre daha hızlı bozulurlar.
Bulut hizmet sağlayıcıları (CSP) tarafından işletilen bir veri merkezinde GPU’ların AI iş yükleri için kullanım oranları %60 ila %70 arasındadır. Alphabet’in önde gelen üretken yapay zeka mimarlarından birinin yaptığı ve iyi yatırımlara sahip uzun vadeli bir teknoloji yatırımcısı olan @techfund tarafından bildirildiği iddia edilen bir alıntıya göre, bu tür kullanım oranlarıyla bir GPU genellikle bir ila iki yıl, en fazla üç yıl hayatta kalacaktır. kaynaklar.
Kendisini ‘Alphabet’in GenAI baş mimarı’ olarak tanımlayan kişinin adını doğrulayamadık ve bu nedenle iddialarına %100 güvenemiyoruz. Bununla birlikte, AI ve HPC uygulamalarına yönelik modern veri merkezi GPU’larının 700 W veya daha fazla güç tüketip dağıtması nedeniyle bu iddianın haklı olduğunu anlıyoruz; bu, küçük silikon parçaları için somut bir strestir.
Konuşmacıya göre GPU’nun ömrünü uzatmanın bir yolu var: Kullanım oranlarını azaltmak. Ancak bu, daha yavaş değer kaybedecekleri ve sermayelerini daha yavaş geri getirecekleri anlamına geliyor ki bu da iş açısından pek iyi değil, sonuç olarak bulut hizmet sağlayıcılarının çoğu GPU’larını yüksek kullanım oranında kullanmayı tercih edecek.
Bu yılın başlarında Meta, 16.384 Nvidia H100 80GB GPU tarafından desteklenen bir küme üzerinde Llama 3 405B modelinin eğitimini açıklayan bir çalışma yayınladı. Kümenin model flop kullanımı (MFU) oranı yaklaşık %38’di (BF16 kullanılarak) ve yine de 419 öngörülemeyen kesintiden (54 günlük eğitim öncesi anlık görüntü sırasında), 148’i (%30,1) çeşitli GPU arızalarından kaynaklandı ( NVLink dahil başarısız oluyor), oysa 72’si (%17,2) HBM3 bellek floplarından kaynaklandı.
Meta’nın sonuçları H100 GPU’lar için oldukça olumlu görünüyor. GPU’lar ve bellekleri Meta hızında arızalanmaya devam ederse, bu işlemcilerin yıllık arıza oranı %9 civarında olacaktır, oysa bu GPU’ların üç yıl içindeki yıllık arıza oranı yaklaşık %27 olacaktır, ancak GPU’ların daha fazla arıza vermesi muhtemeldir. genellikle bir yıllık hizmetten sonra.