Nvidia, yeni Hopper H200 AI GPU’nun performans arttırıcı TensorRT LLM ile bir araya gelerek en son MLPerf performans kriterlerinde rekor kırdığını bildirdi. Eşleştirme, MLPerf’in Llama 2 70B testinde H200’ün performansını saniyede 31.712 token’a kadar yükseltti; bu, Nvidia’nın önceki nesil H100 Hopper GPU’suna göre %45’lik bir iyileşme anlamına geliyor.
Hopper H200 temel olarak H100 ile aynı silikondur, ancak bellek 24 GB 12-Hi HBM3e yığınlarına yükseltildi. Bu, 4,8 TB/s bant genişliği ile GPU başına 141 GB bellekle sonuçlanır; burada H100 genellikle GPU başına yalnızca 80 GB’a (belirli modellerde 94 GB) ve 3 TB/s’ye kadar bant genişliğine sahipti.
Bu rekor şüphesiz bu yılın sonlarında veya gelecek yılın başında Blackwell B200 GPU’lar piyasaya çıktığında kırılacak. Nvidia’nın Blackwell’i bünyesinde bulundurması muhtemeldir ve testlerden geçmektedir, ancak henüz kamuya açıklanmamıştır. Bununla birlikte, eğitim iş yükleri için H100’den 4 kat daha yüksek performans iddiasında bulundu.
Nvidia, MLPerf’in veri merkezi çıkarım kıyaslamalarının 2020 sonlarında kullanıma sunulmasından bu yana pazarda tam sonuçları yayınlayan tek yapay zeka donanım üreticisidir. MLPerf’in yeni kıyaslamasının en son yinelemesi, son teknoloji ürünü bir dil modeli olan Llama 2 70B’yi kullanır. 70 milyar parametreden yararlanılıyor. Llama 2, daha önce MLPerf karşılaştırmalarında kullanılan GPT-J LLM’den 10 kat daha büyüktür.
MLPerf kıyaslamaları, yazılım, donanım ve hizmetler için eğitim ve çıkarım performansına ilişkin tarafsız değerlendirmeler sağlamak üzere tasarlanmış, ML Commons tarafından geliştirilen bir kıyaslama paketidir. Karşılaştırmalı değerlendirmelerin tamamı, aralarında GPT-3, Stable Diffusion V2 ve DLRM-DCNv2’nin de bulunduğu birçok yapay zeka sinir ağı tasarımından oluşuyor.
Nvidia ayrıca, GPU’larının işlem verimliliğini artırmaya yardımcı olan açık kaynaklı bir araç paketi olan TensorRT yazılımıyla H100 GPU’nun performansını ne kadar artırmayı başardığını da vurguladı. TensortRT, tensör paralelliği ve uçuş sırasında gruplama dahil olmak üzere çeşitli unsurlardan oluşur. Tensör paralelliği, bir yapay zeka modelini birden fazla GPU ve sunucuda verimli bir şekilde çalıştırmak için ayrı ağırlık matrislerini kullanır. Uçuş sırasında toplu işlem, bitmiş toplu istek dizilerini çıkarır ve diğerleri hala uçuştayken yeni istekleri yürütmeye başlar.
TensorRT iyileştirmeleri, MLPerf GPT-J karşılaştırmasına uygulandığında, aynı donanım için son altı ayda performansta 3 kat artışla sonuçlandı.
Nvidia ayrıca Intel’in Gaudi2 NPU çözümüyle karşılaştırıldığında MLPerf Llama 2 70B’deki performansını da vurguladı. Nvidia’nın çizelgelerine göre H200, TensorRT-LLM geliştirmeleriyle sunucu modunda 31.712 puanla dünya rekoruna ulaştı. Çevrimdışı modda çip 29.526 puan aldı. H200’ün yeni puanları, büyük ölçüde daha fazla bellek bant genişliği ve kapasitesi sayesinde H100’ün başarabileceğinden yaklaşık %45 daha hızlıdır. Aynı kıyaslamada, TensorRT’yi de kullanan H100, sunucu ve çevrimdışı modlarda sırasıyla 21.806 ve 20.556 puan aldı. Karşılaştırıldığında Intel’in Gaudi2 sonuçları sunucu ve çevrimdışı modlarda yalnızca 6.287 ve 8.035 idi.
Nvidia, TensorRT’nin ötesinde GPU’larına başka optimizasyonlar da entegre etti. Yapılandırılmış seyrekliğin, GPU’daki hesaplamaları azaltarak Llama 2 ile çıkarımda %33 hızlanma sağladığı bildiriliyor. Budama, çıkarım verimini artırmak için bir AI modelini veya LLM’yi basitleştiren başka bir optimizasyondur. DeepCache, Stable Diffusion XL modelleriyle çıkarım için gereken matematiği azaltarak performansı %74 oranında artırır.
Aşağıda tüm slayt destesini bulabilirsiniz Nvidia’nın MLPerf duyurusu. Ayrıca bazı konular hakkında daha fazla bilgi edinebilirsiniz. Kararlı Difüzyonda TensorRT geliştirmeleri devam ediyor.