Intel ve Habana yayınlandı MLPerf eğitim testleri bugün ve bazı çok ilginç sonuçlar içeriyordu. Intel’in Gaudi2 çipi artık LLM’leri eğitmek için NVIDIA GPU’ların tek alternatifi. NVIDIA’nın hisse senedi fiyatı, şirketin GPU’larının hemen hemen tüm popüler LLM’leri (ChatGPT gibi) eğitmek için kullanılması nedeniyle, son AI (aka LLM) altına hücumunda kesinlikle yükseliyor. Ancak Intel Gaudi2 yongası, artık NVIDIA’nın GPU’larına tek geçerli alternatif ve bunu kanıtlayan testler yayınladılar.
Intel: Gaudi2, NVIDIA A100 (FP16) ile benzer fiyat/performans elde ediyor ve Eylül ayına kadar FP8 yüklerinde H100’ü geçmeyi bekliyor
ChatGPT muhtemelen dünyanın bir süredir gördüğü en yıkıcı güç ve geleceğin LLM olduğu açık. ChatGPT (ücretsiz), GPT-3 temel modelini temel alan GPT 3.5 modelini temel alır. ChatGPT 4, GPT-4’ü temel alır, ancak bununla ilgili bilgiler son derece seyrektir ve bunun için herhangi bir kıyaslama yoktur. Bu nedenle, eğitim CPU/GPU’su olarak neyin kullanılacağını belirlerken, GPT-3’ü yeterli bir doğruluk düzeyine (veya kayıp fonksiyonunun azaltılmasına) eğitmek en uygun ölçüt olacaktır. NVIDIA, Hopper GPU’larını kullanarak bu alana hakim ama sonunda bir alternatif var: Intel Gaudi2.
Intel şu anda FP16 iş yüklerinde A100’den daha iyi fiyat/performans iddiasında bulunuyor ve Eylül ayına kadar (FP8 iş yüklerinde) NVIDIA’nın H100’ünü geçmeyi hedefliyor. Bu oldukça iddialı bir hedef ancak şirketin bunu destekleyecek kriterleri var. İşte sonuçlara ilişkin hızlı bir üst düzey genel bakış:
- Gaudi2, GPT-31’de etkileyici bir eğitim süresi sağladı: 384 hızlandırıcıda 311 dakika.
- GPT-3 modelinde 256’dan 384’e hızlandırıcıdan %95’e yakın doğrusal ölçekleme.
- Bilgisayar görüşü – ResNet-50 8 hızlandırıcıları ve Unet3D 8 hızlandırıcıları – ve doğal dil işleme modelleri – BERT 8 ve 64 hızlandırıcıları hakkında mükemmel eğitim sonuçları.
- Kasım ayına kıyasla BERT ve ResNet modelleri için sırasıyla %10 ve %4 performans artışı, artan Gaudi2 yazılım olgunluğunun kanıtıdır.
- Gaudi2 sonuçları “kutudan çıkar çıkmaz” sunuldu, yani müşteriler Gaudi2’yi şirket içinde veya bulutta uygularken karşılaştırılabilir performans sonuçları elde edebilir.
Yukarıdakileri bağlama oturtmak için, NVIDIA girişi GPT-31’i 45 dakikada eğitebilir ancak aynı zamanda çok daha fazla GPU kullanır. Sonuç olarak, uygun bir karşılaştırma yapmanın tek yolu TCO’yu kullanmak ve tam maliyet ile TDP/ısı kısıtlamalarının ne olduğunu bilmektir. Ancak tüm bunlar alakasız olabilir çünkü bu alanda talep arzı çok aşıyor. NVIDIA GPU’lar sıcak kek gibi satılacak olsa da, arzları sınırlı ve pazar LLM’leri eğitebilecek silikon için aç kalacak – ve Intel’in Gaudi2’sinin muhtemelen günü kurtarabileceği yer burası.
Intel ayrıca, şu anda GPT-3 için 10 saatin biraz üzerinde olan LLM eğitimi için en iyi performans gösteren MLPerf sunumunda kullanılan Xeon Platinum sınıfı CPU’larının sonuçlarını da paylaştı. İşte öne çıkan sonuçlar:
- Kapalı bölümde, 4. Nesil Xeon’lar, BERT ve ResNet-50 modellerini 50 dakikadan daha kısa sürede eğitebilir. (47.93 dakika) ve 90 dakikadan az. (88.17 dk.), sırasıyla.
- Açık bölümde BERT ile sonuçlar, Xeon’un 16 düğüme ölçeklendirme yaparken modeli yaklaşık 30 dakikada (31.06 dakika) eğitebildiğini gösteriyor.
- Daha büyük RetinaNet modeli için Xeon, 232 dakikalık bir süreye ulaşmayı başardı. 16 düğümde, müşterilere sabah, öğle yemeği veya gece boyunca modellerini eğitmek için yoğun olmayan Xeon döngülerini kullanma esnekliği sağlıyor.
- Intel Gelişmiş Matris Uzantılarına (Intel AMX) sahip 4. Nesil Xeon, birden çok çerçeveyi, uçtan uca veri bilimi araçlarını ve geniş bir akıllı çözüm ekosistemini kapsayan, kullanıma hazır önemli performans iyileştirmeleri sunar.