AMD, Instinct MI300X lansmanında yapay zeka (AI) ve yüksek performanslı bilgi işlem (HPC) için en yeni GPU’sunun çıkarım iş yüklerinde Nvidia’nın H100 GPU’sundan önemli ölçüde daha hızlı olduğunu öne sürdü. Nvidia’da bu hafta durumun tam tersi olduğunu göstermek zaman aldı: Doğru şekilde optimize edildiğinde H100 tabanlı makinelerinin Instinct MI300X destekli sunuculardan daha hızlı olduğunu iddia ediyor.
Nvidia, AMD’nin performansı Instinct MI300X tabanlı sunucuyla karşılaştırmak için kullanılan DGX H100 makinesi için optimize edilmiş yazılım kullanmadığını iddia ediyor. Nvidia, yüksek yapay zeka performansının sağlam bir paralel bilgi işlem çerçevesine (CUDA’yı ima eder), çok yönlü bir araç paketine (yine CUDA’yı ima eder), son derece rafine algoritmalara (optimizasyonları ima eder) ve mükemmel donanıma bağlı olduğunu belirtiyor. Şirket, yukarıda belirtilen bileşenlerin herhangi biri olmadan performansın ortalamanın altında olacağını söylüyor.
Nvidia’ya göre TensorRT-LLM, H100 ve benzeri GPU’lar için çok önemli bir performans sağlayıcı olan Hopper mimarisi için özel olarak tasarlanmış gelişmiş çekirdek optimizasyonlarına sahip. Bu ince ayar, Llama 2 70B gibi modellerin, çıkarımların hassasiyetinden ödün vermeden H100 GPU’larda hızlandırılmış FP8 işlemlerini yürütmesine olanak tanır.
Nvidia, amacını kanıtlamak için, Llama 2 70B modelini çalıştıran sekiz H100 GPU ile donatılmış tek bir DGX H100 sunucusuna ilişkin performans ölçümlerini sundu. Bir DGX H100 makinesi, tek bir toplu iş boyutuna ayarlandığında tek bir çıkarım görevini yalnızca 1,7 saniyede tamamlayabilir; bu, her seferinde bir isteği yerine getirdiği anlamına gelir; bu, AMD’nin sekiz yönlü MI300X makinesinin 2,5 saniyelik süresiyle karşılaştırıldığında daha düşüktür (bazen AMD tarafından yayınlanan rakamlar). Bu yapılandırma, model işleme için en hızlı yanıtı sağlar.
Ancak yanıt süresini ve genel verimliliği dengelemek amacıyla bulut hizmetleri genellikle belirli görevler için standart bir yanıt süresi kullanır (grafikte 2,0 saniye, 2,3 saniye, 2,5 saniye). Bu yaklaşım, birden fazla çıkarım isteğini daha büyük gruplar halinde bir arada ele almalarına olanak tanır ve böylece sunucunun saniye başına toplam çıkarımlarını artırır. Belirli bir yanıt süresini içeren bu performans ölçümü yöntemi, aynı zamanda MLPerf gibi sektör değerlendirmelerinde de yaygın bir standarttır.
Yanıt süresindeki küçük ödünler bile bir sunucunun aynı anda yönetebileceği çıkarımların sayısını önemli ölçüde artırabilir. Örneğin, 2,5 saniyelik önceden belirlenmiş yanıt süresiyle sekiz yollu bir DGX H100 sunucusu, her saniyede beşten fazla Llama 2 70B çıkarımı gerçekleştirebilir. Bu, toplu bir ayar altında saniyede bir çıkarımdan daha azının işlenmesiyle karşılaştırıldığında önemli bir artıştır. Bu arada Nvidia, bu kurulumdaki performansı ölçerken doğal olarak AMD’nin Instinct MI300X’i için herhangi bir rakama sahip değildi.