Nvidia’nın GB200 NVL72 sunucu raflarının aşırı ısındığına ilişkin raporların abartıldığı iddia ediliyor. İşletme İçeriği Blackwell’in soğutma tasarımındaki hatalarının halihazırda giderildiğini bildiriyor. Semianalytics’in baş analisti Dylan Patel’in Business Insider’a, Blackwell’in aylardır mevcut olan tasarım sorunlarının büyük ölçüde ele alındığını ve aşırı ısınma sorunlarının büyük ölçüde abartıldığını belirttiği iddia edildi.
Yarı iletken endüstrisini izleyen Semianaliz’in beş analisti, çeşitli tedarikçilerin “yeniden çalışmalarını” tetikleyen soğutma sistemi sorunlarının “küçük” bir değişiklik olduğunu bildirdi. Blackwell’in soğutma hataları, Nvidia’nın 120kW’a kadar güç tüketebilen devasa 72 çipli sunucu rafında özellikle sorun yarattı. Raf tasarımındaki tasarım kusurları, GPU’ların aşırı ısınması nedeniyle Nvidia’nın tasarımını birçok kez yeniden değerlendirmesine neden oldu. Bu, Nvidia’nın GB200 donanımının sevkiyatında aksaklığa neden oldu ve gerekli tasarım değişiklikleri nedeniyle ek gecikmelere neden oldu.
Nvidia’nın B200 GPU’ları yapay zeka iş yükleri için en güçlü işleme çipleridir. Örneğin GB200 süper çipinin yapılandırılabilir bir TDP’si vardır. binlerce 2.700 watt’a kadar en yüksek değere sahip watt. Bu saçma derecede yüksek güç değerleri, standart raf montajlı form faktörünün kısıtlamalarında hava soğutmanın kullanımını neredeyse imkansız hale getiriyor.
Bu fizik sorunu, Nvidia’yı en yeni Blackwell GPU’larında sıvı soğutmaya ihtiyaç duymaya zorladı. Ayrıca veri merkezlerinin, sıvı soğutmalı sunucuları desteklemek için gereken altyapıyı barındıracak şekilde sunucu çiftliklerini yenilemeleri de gerekiyor.
Nvidia bu sorunu, GPU üreticisinin hâlâ yaptığı, H200 NVL gibi GPU’lar biçiminde daha yavaş hava soğutmalı GPU’lar oluşturarak çözebilir. Bununla birlikte, AI GPU silahlanma yarışının en ileri noktasında kalabilmek için Nvidia, maliyet ne olursa olsun performansa öncelik veriyor; bu nedenle şirket, hava soğutma pahasına binlerce watt güç gerektiren GPU’lar üretmeyi tercih etti.
İyi haber şu ki Nvidia’nın 72 çipli Blackwell soğutma sorunları görünüşte önemsiz ve halihazırda büyük ölçüde giderilmiş durumda. Ayrıca sadece Nvidia’nın amiral gemisi olan 72 çipli sunucu rafında sorun yaşanıyor.