Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Arızalı Nvidia H100 GPU’ları ve HBM3 belleği, LLama 3 eğitimi sırasında meydana gelen arızaların yarısına neden oldu; Meta’nın 16.384 GPU eğitim kümesi için her üç saatte bir arıza meydana geldi
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Arızalı Nvidia H100 GPU’ları ve HBM3 belleği, LLama 3 eğitimi sırasında meydana gelen arızaların yarısına neden oldu; Meta’nın 16.384 GPU eğitim kümesi için her üç saatte bir arıza meydana geldi

Liste

Arızalı Nvidia H100 GPU’ları ve HBM3 belleği, LLama 3 eğitimi sırasında meydana gelen arızaların yarısına neden oldu; Meta’nın 16.384 GPU eğitim kümesi için her üç saatte bir arıza meydana geldi

teknomers
Son güncelleme: 27 Temmuz 2024 22:47
teknomers
Paylaş
Paylaş


Meta yakın zamanda bir çalışma yayınladı 16.384 Nvidia H100 80GB GPU içeren bir kümede Llama 3 405B model eğitim çalışmasının ayrıntılarını veriyor. Eğitim çalışması 54 gün boyunca gerçekleşti ve küme bu süre zarfında 419 beklenmeyen bileşen arızasıyla karşılaştı, ortalama her üç saatte bir arıza. Arıza vakalarının yarısında, GPU’lar veya yerleşik HBM3 bellekleri suçluydu.

Eski süper bilgisayar atasözünde söylendiği gibi, büyük ölçekli sistemlerdeki tek kesinlik başarısızlıktır. Süper bilgisayarlar, on binlerce işlemci, yüz binlerce başka çip ve yüzlerce kilometre kablo kullanan son derece karmaşık cihazlardır. Karmaşık bir süper bilgisayarda, her birkaç saatte bir bir şeyin bozulması normaldir ve geliştiriciler için asıl numara, bu tür yerel bozulmalara rağmen sistemin çalışır durumda kalmasını sağlamaktır.

16.384 GPU eğitiminin ölçeği ve eşzamanlı yapısı, onu arızalara yatkın hale getirir. Arızalar doğru şekilde azaltılmazsa, tek bir GPU arızası tüm eğitim işini bozabilir ve yeniden başlatmayı gerektirebilir. Ancak, Llama 3 ekibi %90’ın üzerinde etkili bir eğitim süresini korudu.

54 günlük bir ön eğitim anlık görüntüsünde, 47’si planlı ve 419’u beklenmeyen olmak üzere 466 iş kesintisi yaşandı. Planlı kesintiler otomatik bakımdan kaynaklanırken, beklenmeyen kesintiler çoğunlukla donanım sorunlarından kaynaklandı. GPU sorunları en büyük kategoriydi ve beklenmeyen kesintilerin %58,7’sini oluşturuyordu. Sadece üç olay önemli manuel müdahale gerektirdi; geri kalanı otomasyonla yönetildi.

asdfg

(Görsel kaynağı: Meta)

419 beklenmeyen kesintiden 148’i (%30,1) çeşitli GPU arızalarından (NVLink arızaları dahil) kaynaklanırken 72’si (%17,2) HBM3 bellek arızalarından kaynaklandı. Nvidia’nın H100 GPU’larının yaklaşık 700W tükettiği ve çok fazla termal strese maruz kaldığı düşünüldüğünde bu çok da şaşırtıcı değil. İlginçtir ki, 54 günde sadece iki CPU arızalandı.

Ancak GPU’lar kırılgan olan en önemli bileşenler olsa da, beklenmeyen kesintilerin %41,3’ü yazılım hataları, ağ kabloları ve ağ bağdaştırıcıları gibi çok sayıda faktörden kaynaklanıyor.

Verimliliği artırmak için Meta ekibi iş başlatma ve kontrol noktası sürelerini azalttı ve tescilli tanılama araçları geliştirdi. PyTorch’un NCCL uçuş kaydedicisi, özellikle NCCLX ile ilgili olarak donmaları ve performans sorunlarını hızla teşhis etmek ve çözmek için yaygın olarak kullanıldı. Bu araç, toplu meta verileri ve yığın izlerini yakalayarak hızlı sorun çözümüne yardımcı olur.

Tom’s Hardware’in en iyi haberlerini ve derinlemesine incelemelerini doğrudan gelen kutunuza alın.

NCCLX, özellikle NVLink ve RoCE ile ilgili sorunlar için arıza tespiti ve yerelleştirmede önemli bir rol oynadı. PyTorch ile entegrasyon, NVLink arızalarından kaynaklanan iletişim duraklamalarının izlenmesine ve otomatik zaman aşımına uğramasına olanak sağladı.

Binlerce diğer GPU’yu yavaşlatabilen başıboş GPU’lar, özel araçlar kullanılarak belirlendi. Bu araçlar sorunlu iletişimlere öncelik vererek başıboşların etkili bir şekilde tespit edilmesini ve zamanında çözülmesini sağladı, bu da yavaşlamaların en aza indirilmesini ve genel eğitim verimliliğinin korunmasını sağladı.

Öğle vakti sıcaklık dalgalanmaları gibi çevresel faktörler, verimde %1-2’lik bir değişime neden olarak eğitim performansını etkiledi. GPU’ların dinamik voltaj ve frekans ölçeklemesi bu sıcaklık değişimlerinden etkilendi, ancak büyük bir sorun değildi.

Llama 3 405B LLM eğitim ekibinin yaşadığı bir diğer zorluk da on binlerce GPU’nun eş zamanlı güç tüketimi değişiklikleridir ve bu da veri merkezlerinin güç şebekesini zorlar. Bazen onlarca megawatt’a varan bu dalgalanmalar şebekenin sınırlarını zorladı ve bu da Meta’nın veri merkezlerinin yeterli güce sahip olduğundan emin olması gerektiği anlamına geliyor.

16.384 GPU’luk bir kümenin 54 günde 419 arıza yaşadığını (24 saatte 7,76 kez veya üç saatte bir arıza) göz önünde bulundurduğumuzda, arızalanabilecek bileşen sayısında altı kat artış anlamına gelen 100.000 adet H100 GPU içeren xAI kümesinin ne sıklıkla arıza yaşayacağını merak edebiliriz.



genel-21

Hogwarts Mirası – Vivaryumunuz İçin Canavarları Nasıl Yakalarsınız?
Pathologic 3 için sistem gereksinimleri.
Netflix, Beş Ülkede ‘Ev Ekle’ Özelliği ile Şifre Paylaşımlı Ödeme Planını Tanıtıyor
Kate Hudson, Diğer Sektörlerde Adam Kayırmacılığı “Hollywood’da Gördüğümden Çok Daha Fazla” Gördüğünü Söyledi
Hacimsel video ile oluşturulan ilk NBA yayını, basketbolu tekinsiz vadiye yerleştiriyor
ETİKETLENDİ:#nvidiaArızaarızalarınarızalıbelleğiBirEğitimeğitimigeldiGelenGPUGPUlarıH100HBM3içinkümesiLlamaMetanınmeydanaNedenOldusaattesırasındaÜçyarışına
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Google Pixel Buds Pro 2 fiyat sızıntısı yükseltmelere ve artışa işaret ediyor
Sonraki Makale NASA’nın Ay ve Mars Habitatları için Mycotecture’ı

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

2 Kişilik Hayal, Şimdi Yüksek Teknoloji Yerli Lazer Kesim ve Markalama Makineleri Üretiyor
Genel
1,479 $’lık Alienware oyuna hazır PC, RTX 5070 ve Ultra 7 CPU ile 4K destekli
Donanım
Meta Hindistan’ın CRED Kurucusu Kunal Shah’ı WhatsApp’a Atadı ve 900M Dolar Yatırımda Bulundu
Genel
Krabiyeleri Yönetmek İçin Hazırladığınız Kodlar (Haziran 2026)
Oyun
Kritik Uyarı: 29 Yaşındaki Squid Proxy Hatası HTTP İsteklerini Sızdırıyor
Siber Güvenlik
Apple’ın Yeni AirTag’leri Prime Günü’nde Rekor Fiyatlarla!
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?