
Nvidia’nın Blackwell GPU’ları şimdiye kadar yapılmış en karmaşık yarı iletken cihazlardan bazıları olup üretim, paketleme ve test zorluklarını önemli ölçüde artırmaktadır. göre Finansal Times, Advantest’in genel müdürü Doug Lefever’e göre, Blackwell veri merkezi GPU’larını test etmek, Hopper veri merkezi GPU’larını test etmekten üç ila dört kat daha uzun sürüyor çünkü her birimin gönderilmeden önce farklı araçlar üzerinde düzinelerce kez test edilmesi gerekiyor.
Bir Nvidia Blackwell B100/B200 GPU, TSMC’nin CoWoS-L paketleme teknolojisinin etkinleştirdiği bir arayüz kullanılarak birbirine bağlanan sekiz HBM3E bellek yongasının yanı sıra 104 milyar transistörü paketleyen iki hesaplama yongasından oluşur. Bu, Nvidia’nın 80 milyar transistör yongasına ve altı HBM3 bellek yığınına sahip Hopper H100 GPU’suyla tezat oluşturuyor.
Tipik olarak, transistör sayısı arttıkça, çipler daha fazla test modeli ve daha uzun test süreleri gerektirdiğinden test karmaşıklığı neredeyse katlanarak artar. Test protokolleri yüksek hızlı ara bağlantıları, stres koşullarını, termal koşulları (B200 durumunda aşırıdır) ve çoklu çalışma modlarını (Blackwell FP4 desteğini ekler) kapsamalıdır. Blackwell, yeni özelliklere ve daha yüksek termallere sahip, son derece karmaşık iki yonga içerdiğinden, bunların test edilmesinin iki kat daha uzun sürmesi doğaldır.
Daha fazlası da var. TSMC’nin CoWoS-L 2.5D paketleme teknikleri, paketteki her bileşenin doğru şekilde çalıştığından ve ara bağlantıların güvenilir olduğundan emin olmak için ek test adımları (ve bazen birden fazla test aşaması) sunar.
Blackwell ile, hesaplama yongalarını ve bellek yongalarını ayrı ayrı test etmek (DRAM üreticileri HBM3 yığınlarını test etse de) ve ardından bu yongacıklar RDL aracılarına eklendikçe GPU’yu birden çok kez test etmek gerekir. Nvidia’nın Blackwell B100 ve B200 GPU’larının ve modüllerinin paketleme ve montaj sırasında tam olarak kaç kez test edildiğini bilmiyoruz. Yine de bu GPU’lar, Hopper H100 GPU’lara göre çok daha fazla test yinelemesinden geçmektedir.
Genel olarak Blackwell’in uzun test süresi, bu AI ve HPC GPU’ların artan karmaşıklığını ve CPU’lar, DPU’lar ve ağ arayüz kartları gibi diğer bileşenlerle birlikte çalışırken çeşitli veri merkezi ortamlarında performans ve güvenilirliği sağlamak için kapsamlı doğrulama gerekliliğini yansıtıyor.

