Nvidia Hopper H200, TensorRT ile MLPerf karşılaştırma rekorunu kırdı - henüz Blackwell başvurusu yok, üzgünüm - Dünyadan Güncel Teknoloji Haberleri

Nvidia, yeni Hopper H200 AI GPU’nun performans arttırıcı TensorRT LLM ile bir araya gelerek en son MLPerf performans kriterlerinde rekor kırdığını bildirdi. Eşleştirme, MLPerf’in Llama 2 70B testinde H200’ün performansını saniyede 31.712 token’a kadar yükseltti; bu, Nvidia’nın önceki nesil H100 Hopper GPU’suna göre %45’lik bir iyileşme anlamına geliyor.

Hopper H200 temel olarak H100 ile aynı silikondur, ancak bellek 24 GB 12-Hi HBM3e yığınlarına yükseltildi. Bu, 4,8 TB/s bant genişliği ile GPU başına 141 GB bellekle sonuçlanır; burada H100 genellikle GPU başına yalnızca 80 GB’a (belirli modellerde 94 GB) ve 3 TB/s’ye kadar bant genişliğine sahipti.

Bu rekor şüphesiz bu yılın sonlarında veya gelecek yılın başında Blackwell B200 GPU’lar piyasaya çıktığında kırılacak. Nvidia’nın Blackwell’i bünyesinde bulundurması muhtemeldir ve testlerden geçmektedir, ancak henüz kamuya açıklanmamıştır. Bununla birlikte, eğitim iş yükleri için H100’den 4 kat daha yüksek performans iddiasında bulundu.

Nvidia, MLPerf’in veri merkezi çıkarım kıyaslamalarının 2020 sonlarında kullanıma sunulmasından bu yana pazarda tam sonuçları yayınlayan tek yapay zeka donanım üreticisidir. MLPerf’in yeni kıyaslamasının en son yinelemesi, son teknoloji ürünü bir dil modeli olan Llama 2 70B’yi kullanır. 70 milyar parametreden yararlanılıyor. Llama 2, daha önce MLPerf karşılaştırmalarında kullanılan GPT-J LLM’den 10 kat daha büyüktür.

MLPerf kıyaslamaları, yazılım, donanım ve hizmetler için eğitim ve çıkarım performansına ilişkin tarafsız değerlendirmeler sağlamak üzere tasarlanmış, ML Commons tarafından geliştirilen bir kıyaslama paketidir. Karşılaştırmalı değerlendirmelerin tamamı, aralarında GPT-3, Stable Diffusion V2 ve DLRM-DCNv2’nin de bulunduğu birçok yapay zeka sinir ağı tasarımından oluşuyor.

Resim 1 ile ilgili 3

Nvidia MLPerf Slayt Gösterisi — (Resim kredisi: Nvidia)

Nvidia ayrıca, GPU’larının işlem verimliliğini artırmaya yardımcı olan açık kaynaklı bir araç paketi olan TensorRT yazılımıyla H100 GPU’nun performansını ne kadar artırmayı başardığını da vurguladı. TensortRT, tensör paralelliği ve uçuş sırasında gruplama dahil olmak üzere çeşitli unsurlardan oluşur. Tensör paralelliği, bir yapay zeka modelini birden fazla GPU ve sunucuda verimli bir şekilde çalıştırmak için ayrı ağırlık matrislerini kullanır. Uçuş sırasında toplu işlem, bitmiş toplu istek dizilerini çıkarır ve diğerleri hala uçuştayken yeni istekleri yürütmeye başlar.

TensorRT iyileştirmeleri, MLPerf GPT-J karşılaştırmasına uygulandığında, aynı donanım için son altı ayda performansta 3 kat artışla sonuçlandı.

Nvidia ayrıca Intel’in Gaudi2 NPU çözümüyle karşılaştırıldığında MLPerf Llama 2 70B’deki performansını da vurguladı. Nvidia’nın çizelgelerine göre H200, TensorRT-LLM geliştirmeleriyle sunucu modunda 31.712 puanla dünya rekoruna ulaştı. Çevrimdışı modda çip 29.526 puan aldı. H200’ün yeni puanları, büyük ölçüde daha fazla bellek bant genişliği ve kapasitesi sayesinde H100’ün başarabileceğinden yaklaşık %45 daha hızlıdır. Aynı kıyaslamada, TensorRT’yi de kullanan H100, sunucu ve çevrimdışı modlarda sırasıyla 21.806 ve 20.556 puan aldı. Karşılaştırıldığında Intel’in Gaudi2 sonuçları sunucu ve çevrimdışı modlarda yalnızca 6.287 ve 8.035 idi.

Nvidia, TensorRT’nin ötesinde GPU’larına başka optimizasyonlar da entegre etti. Yapılandırılmış seyrekliğin, GPU’daki hesaplamaları azaltarak Llama 2 ile çıkarımda %33 hızlanma sağladığı bildiriliyor. Budama, çıkarım verimini artırmak için bir AI modelini veya LLM’yi basitleştiren başka bir optimizasyondur. DeepCache, Stable Diffusion XL modelleriyle çıkarım için gereken matematiği azaltarak performansı %74 oranında artırır.

Aşağıda tüm slayt destesini bulabilirsiniz Nvidia’nın MLPerf duyurusu. Ayrıca bazı konular hakkında daha fazla bilgi edinebilirsiniz. Kararlı Difüzyonda TensorRT geliştirmeleri devam ediyor.

Resim 1 ile ilgili 14

genel-21

Nvidia Hopper H200, TensorRT ile MLPerf karşılaştırma rekorunu kırdı – henüz Blackwell başvurusu yok, üzgünüm

Byteknomers

By teknomers

Benzer İçerikler

WhatsApp Topluluklarına Yeni Etkinlikler Özelliği Getirilecek, Duyuru Gruplarına Cevaplar

Outer Range 1. Sezondan Hatırlanması Gereken En Büyük ve En Tuhaf 10 Şey

Google Play mağazası resmi uygulamalara “Devlet” rozetini ekliyor

Yeni Steam sandbox oyunu Stardew Valley ve Terraria’nın birleşimidir

Cobra Kai’nin 6. Sezonu Üç Parçaya Ayrılacak, İlk Teaser Yayınlandı

Paradox’un Satisfactory’e serbest biçimli yanıtı erken erişime girdi

Disney Epic Mickey: Yenilenen Ön Siparişler Resmen Yayında

Samsung, Galaxy Z Fold 4 birimlerinde yapay zeka destekli One UI 6.1’i kullanıma sunmaya başladı

Hiçbir Şey Telefonu (1) büyük güncellemesi, ChatGPT entegrasyonu ve yeni özellikler ekler

Google, şifre anahtarlarına yönelik desteği genişletiyor ve bunları Gelişmiş Koruma Programına ekliyor

Çok yönlü Pixel Tablet 256GB, Amazon’da 101$’lık tatlı bir indirimle satışta; Fırsatın varken birinden tasarruf et

Ay Görevi İçin Elektromanyetik Testleri Tamamladı

İki küçük NASA uydusu toprak nemini ve volkanik gazları ölçecek

Dev Galaktik Patlama Kozmik Kirlilik Dinamiklerini Ortaya Çıkarıyor

Gözlemler, TOI-837 b’nin devasa bir çekirdeğe sahip, Satürn büyüklüğünde genç bir ötegezegen olduğunu ortaya çıkardı

İlginizi Çekebilir

En iyi Amazon TV fırsatları: 100 doların altındaki ucuz TV’ler

Star Wars Jedi: Survivor, Star Wars Günü’nde %50’den Fazla İndirimde

Görünüşe göre NASA’nın Orion uzay aracının ısı kalkanıyla ilgili sorunları var. Yönetim, Artemis misyonunun ilk uçuşundan sonra koruma durumunu gösterdi

WhatsApp Topluluklarına Yeni Etkinlikler Özelliği Getirilecek, Duyuru Gruplarına Cevaplar