Raporlara göre Nvidia’nın yeni nesil Blackwell işlemcileri, yüksek kapasiteli sunucu raflarına takıldıklarında aşırı ısınma nedeniyle önemli zorluklarla karşılaşıyor Bilgi. Bu sorunların tasarım değişikliklerine ve gecikmelere yol açtığı ve Google, Meta ve Microsoft gibi müşterilerin Blackwell sunucularını zamanında dağıtıp dağıtamayacakları konusunda endişelerini artırdığı bildirildi.
Konuşan, durumu bilen içeriden bilgilere göre BilgiNvidia’nın AI ve HPC için Blackwell GPU’ları, içinde 72 işlemci bulunan sunucularda kullanıldığında aşırı ısınıyor. Bu makinelerin raf başına 120 kW’a kadar enerji tüketmesi bekleniyor. Aşırı ısınma GPU performansını sınırladığından ve bileşenlere zarar verme riski taşıdığından, bu sorunlar Nvidia’nın sunucu raflarının tasarımını birçok kez yeniden değerlendirmesine neden oldu. Müşterilerin, bu aksaklıkların veri merkezlerine yeni işlemcilerin yerleştirilmesine yönelik zaman çizelgelerini aksatabileceğinden endişe duydukları bildiriliyor.
Nvidia’nın tedarikçilerine aşırı ısınma sorunlarını ortadan kaldırmak için raflarda birkaç tasarım değişikliği yapma talimatı verdiği bildirildi. Şirket, sunucu soğutmasını iyileştirmek amacıyla mühendislik revizyonları geliştirmek için tedarikçileri ve ortaklarıyla yakın işbirliği içinde çalıştı. Bu ayarlamalar bu tür büyük ölçekli teknoloji sürümleri için standart olsa da, yine de gecikmeyi artırdılar ve beklenen teslimat tarihlerini daha da geriye ittiler.
Gecikmeler ve aşırı ısınma sorunlarına yanıt olarak bir Nvidia sözcüsü, Reuters’e bulut sağlayıcılarla yapılan işbirliği çalışmalarını hatırlattı ve tasarım değişikliklerinin normal geliştirme sürecinin bir parçası olduğunu açıkladı. Bulut sağlayıcıları ve tedarikçileriyle yapılan bu ortaklık, Nvidia’nın bu teknik zorlukları çözmeye devam ederken nihai ürünün performans ve güvenilirlik beklentilerini karşılamasını sağlamayı amaçlıyor.
Daha önce Nvidia, işlemcinin verimi düşüren tasarım kusuru nedeniyle Blackwell üretim rampasını ertelemek zorunda kalmıştı. Nvidia’nın Blackwell B100 ve B200 GPU’ları, iki yongasını birbirine bağlamak için TSMC’nin CoWoS-L paketleme teknolojisini kullanıyor. Bu tasarım, 10 TB/s’ye kadar veri aktarım hızlarını destekleyen, yerel silikon ara bağlantı (LSI) köprülerine sahip bir RDL aracı içerir. Bu LSI köprülerinin hassas konumlandırılması, teknolojinin amaçlandığı gibi çalışması için çok önemlidir. Ancak GPU çipletlerinin, LSI köprülerinin, RDL aracısının ve anakart alt katmanının termal genleşme özelliklerindeki uyumsuzluk, çarpıklığa ve sistem arızalarına yol açtı. Bu sorunu çözmek için Nvidia’nın, üretim güvenilirliğini artırmak amacıyla GPU silikonunun üst metal katmanlarını ve tümsek yapılarını değiştirdiği bildirildi. Nvidia bu değişikliklerle ilgili spesifik ayrıntıları hiçbir zaman açıklamasa da düzeltmenin bir parçası olarak yeni maskelerin gerekli olduğunu belirtti.
Sonuç olarak, Blackwell GPU’ların son revizyonu ancak Ekim ayı sonlarında seri üretime girdi; bu da Nvidia’nın bu işlemcileri Ocak ayının sonundan itibaren piyasaya sürebileceği anlamına geliyor.
Google, Meta ve Microsoft gibi teknoloji devleri de dahil olmak üzere Nvidia’nın müşterileri, en güçlü büyük dil modellerini eğitmek için Nvidia’nın GPU’larını kullanıyor. Blackwell AI GPU’larındaki gecikmeler doğal olarak Nvidia müşterilerinin planlarını ve ürünlerini etkiliyor.