AMD, CES fuarında yapay zeka ve HPC iş yüklerine yönelik en yeni Instinct MI325X hızlandırıcısını tanıttı; bu hızlandırıcı aynı zamanda dünyanın 256 GB HBM3E belleğe sahip tek işlemcisi ve çıkarım için en verimli GPU’lardan biri olmayı vaat ediyor.
Tüketici Elektroniği Fuarı’nın amacı tüketiciler için tasarlanmış en yeni ve en iyi elektronik ürünleri sergilemek olsa da, yarı iletken şirketleri fuara uygun gördükleri teknolojileri sergilemek için uzun süredir CES’i kullanıyor. Nvidia açılış konuşmasının çoğunu AI hakkında konuşarak geçirse de, AMD aslında istemci bilgisayarları için bir dizi işlemciyi tanıttı, ancak bu kesinlikle şirketin gösterecek hiçbir şeyi olmadığı anlamına gelmiyor. Aslında tamamen yeni Instinct MI325X’i gösterdi.

AMD’nin Instinct MI325X’i, Instinct MI300X’e güç veren aynı çift yongalı GPU ile birlikte gelir ve 2,10 GHz’e kadar saat hızına sahip 19.456 akış işlemcisine (304 bilgi işlem birimi) sahiptir. Ancak yeni hızlandırıcı, 5,3 TB/s bant genişliğine sahip 192 GB HBM3 belleğin aksine, 6 TB/s bant genişliğine sahip 256 GB HBM3E bellekle donatılmıştır.
Nvidia’nın H200’ü ‘yalnızca’ 141 GB HBM3E bellek ve 4,8 TB/sn bant genişliğiyle geldiğinden, AMD’nin Instinct MI325X’i yerleşik HBM3E bellek kapasitesi açısından sektöre liderlik ediyor. İlginç bir şekilde AMD daha önce MI325X’in 288 GB HBM3E ile geleceğini açıklamıştı ancak daha sonra bilinmeyen bir nedenden dolayı kullanılabilir kapasiteyi 256 GB belleğe düşürme kararı aldı.

Daha fazla yerleşik belleğe sahip olmak, yapay zeka hızlandırıcıları için hem eğitim hem de çıkarım açısından en azından teoride çok önemlidir.
Modern yapay zeka modelleri genellikle on milyarlarca parametreye sahiptir ve eğitim için on binlerce GPU gerektirir. Bu parametrelerin ara veriler ve degradelerle birlikte saklanması önemli miktarda bellek gerektirir. Böyle bir model GPU’nun yerleşik belleğine sığmadığı için geliştiricilerin, hesaplama ve iletişim yükünü artıran model paralelliği veya tensör dilimleme gibi teknikleri kullanması gerekir. Daha fazla GPU belleği sayesinde, daha düşük genel giderler nedeniyle eğitim için daha az GPU gerekir.
Ayrıca yapay zeka hızlandırıcıları verileri toplu olarak işler. Daha büyük yerleşik bellek kapasitesi daha büyük gruplara izin verir, bu da daha yüksek verim ve daha hızlı, daha verimli eğitim ve çıkarımlara yol açabilir. Daha küçük bellek, modeli daha küçük parti boyutlarıyla çalışmaya zorlayarak verimliliği azaltır.
Ancak gerçek dünyada işler biraz farklı görünüyor. AMD ve Nvidia tarafından sunulan verilere göre, sekiz adet Nvidia H100 80 GB GPU’ya sahip bir sistem, Llama 2 70B modelinde MLPerf 4.1 üretken yapay zeka testinde sekiz adet AMD Instinct MI300X 192 GB GPU’ya sahip bir makineyle saniyede karşılaştırılabilir sayıda token üretiyor. ağustos sonu itibariyle. Buna karşılık, H200 141 GB GPU’lara sahip 8 yollu bir sunucu, 8 yollu MI300X 192 GB makineye kıyasla saniyede %30’dan fazla jeton üretir.
Şimdilik, Instinct MI300X’in (en azından Ağustos itibariyle) donanım yeteneklerini tam olarak kullanamadığı görülüyor, bunun nedeni muhtemelen yazılım yığınındaki sınırlamalar. Instinct MI325X’in aynı yazılım yığını sınırlamalarının üstesinden gelip gelmeyeceği ve rakiplerinden daha iyi performans gösterip göstermeyeceği henüz bilinmiyor.

