Nvidia’nın Blackwell GPU’sundaki verimi düşüren tasarım hatası aylar önce düzeltildi ve B100/B200 işlemcilerin geliştirilmiş bir versiyonu seri üretime girmek üzere. Nvidia’nın CEO’su Jensen Huang, bu hafta kusurun tamamen Nvidia’dan kaynaklandığını itiraf etti ve şirketin üretim ortağı TSMC’nin sorunun zamanında düzeltilmesine yardımcı olduğunu söyledi. Reuters.
Huang, “Blackwell’de bir tasarım kusurumuz vardı, işlevseldi ancak tasarım hatası verimin düşük olmasına neden oldu” dedi. “Bu %100 Nvidia’nın hatasıydı.”
Tasarım kusuruyla ilgili ilk raporlar ortaya çıktığında, bazı medya kuruluşları TSMC’nin sorumlu olduğunu bildirdi ve bunun Nvidia ile dökümhane ortağı arasında gerginliğe neden olabileceğini öne sürdü. Huang’a göre durum böyle değildi ve sorunun nedeni Nvidia’nın kendi yanlış hesaplamalarıydı. Huang ayrıca iki şirket arasındaki gerginlik haberlerini “sahte haber” olarak nitelendirdi.
Nvidia’nın Blackwell B100 ve B200 GPU’ları, yerel silikon ara bağlantı (LSI) köprüleriyle (yaklaşık 10 TB/s veri aktarım hızlarını etkinleştirmek için) donatılmış bir RDL aracıya dayanan TSMC’nin CoWoS-L paketleme teknolojisini kullanarak iki yongasını birbirine bağlıyor. Bu köprülerin yerleşimi kritiktir. Bununla birlikte, GPU yongaları, LSI köprüleri, RDL aracısı ve anakart alt katmanı arasındaki termal genleşme özelliklerinde olduğu varsayılan bir uyumsuzluk, sistemin eğrilmesine ve arızalanmasına neden oldu ve Nvidia’nın, GPU silikonunun üst metal katmanlarını ve tümseklerini geliştirmek için değiştirmek zorunda kaldığı bildirildi. üretim getirileri. Şirket, düzeltmeyle ilgili belirli ayrıntıları açıklamasa da yeni maskelerin gerekli olduğunu belirtti.
Verimi azaltan sorunlar ve önemli işlevsellik sorunları (hatalar) yarı iletken dünyasında duyulmamış bir şey değil. Tipik olarak şirketler, bir metal katmanı (veya iki) değiştirerek ve buna yeni bir adım adını vererek bunları düzeltir. Örnek olarak: Intel’in Sapphire Rapids’inde 500 hata olduğu bildirildi ve şirket bunların hepsini düzeltmek için yaklaşık bir düzine adım yayınladı (beşi temel yanıtlardı). Her yeni adımın tamamlanması yaklaşık üç ay sürüyor (sorunun belirlenmesi, düzeltilmesi ve çipin yeni bir versiyonunun üretilmesi dahil), bu nedenle Nvidia ve TSMC’nin Blackwell GPU’yu düzeltme hızı oldukça etkileyici.
Yapay zeka ve süper bilgisayarlar için artık düzeltilen Blackwell GPU’lar Ekim ayı sonlarında seri üretime girecek ve gelecek yılın başlarında sevkiyata başlayacak (ki bu hala Nvidia’nın 2025 mali yılı olacak).
Bununla birlikte Nvidia, bu yılın başlarında AWS, Google ve Microsoft gibi büyük bulut hizmet sağlayıcıları arasında Blackwell GPU’larına olan talebi karşılamak için 2024 yılında da ilk düşük verimli Blackwell işlemcilerden bazılarını piyasaya sürmesi gerekeceğini açıklamıştı. 2024’te veri merkezlerine kaç tane Blackwell GPU’nun gönderileceği belli değil.