AMD, Instinct MI300X lansmanında yapay zeka (AI) ve yüksek performanslı bilgi işlem (HPC) için en yeni GPU’sunun çıkarım iş yüklerinde Nvidia’nın H100 GPU’sundan önemli ölçüde daha hızlı olduğunu öne sürdü. Nvidia’da bu hafta durumun tam tersi olduğunu göstermek zaman aldı: Doğru şekilde optimize edildiğinde H100 tabanlı makinelerinin Instinct MI300X destekli sunuculardan daha hızlı olduğunu iddia ediyor.

Nvidia, AMD’nin performansı Instinct MI300X tabanlı sunucuyla karşılaştırmak için kullanılan DGX H100 makinesi için optimize edilmiş yazılım kullanmadığını iddia ediyor. Nvidia, yüksek yapay zeka performansının sağlam bir paralel bilgi işlem çerçevesine (CUDA’yı ima eder), çok yönlü bir araç paketine (yine CUDA’yı ima eder), son derece rafine algoritmalara (optimizasyonları ima eder) ve mükemmel donanıma bağlı olduğunu belirtiyor. Şirket, yukarıda belirtilen bileşenlerin herhangi biri olmadan performansın ortalamanın altında olacağını söylüyor.

Nvidia’ya göre TensorRT-LLM, H100 ve benzeri GPU’lar için çok önemli bir performans sağlayıcı olan Hopper mimarisi için özel olarak tasarlanmış gelişmiş çekirdek optimizasyonlarına sahip. Bu ince ayar, Llama 2 70B gibi modellerin, çıkarımların hassasiyetinden ödün vermeden H100 GPU’larda hızlandırılmış FP8 işlemlerini yürütmesine olanak tanır.

(Resim kredisi: Nvidia)

Nvidia, amacını kanıtlamak için, Llama 2 70B modelini çalıştıran sekiz H100 GPU ile donatılmış tek bir DGX H100 sunucusuna ilişkin performans ölçümlerini sundu. Bir DGX H100 makinesi, tek bir toplu iş boyutuna ayarlandığında tek bir çıkarım görevini yalnızca 1,7 saniyede tamamlayabilir; bu, her seferinde bir isteği yerine getirdiği anlamına gelir; bu, AMD’nin sekiz yönlü MI300X makinesinin 2,5 saniyelik süresiyle karşılaştırıldığında daha düşüktür (bazen AMD tarafından yayınlanan rakamlar). Bu yapılandırma, model işleme için en hızlı yanıtı sağlar.



genel-21