Oak Ridge Ulusal Laboratuvarı’ndaki araştırmacılar, Frontier süper bilgisayarında ChatGPT boyutunda büyük bir dil modelini (LLM) eğittiler ve bunu yapmak için 37.888 GPU’dan yalnızca 3.072’sine ihtiyaç duydular. Ekip bir araştırma makalesi yayınladı Bu, bu başarıyı nasıl başardığını ve yol boyunca karşılaştığı zorlukları ayrıntılarıyla anlatıyor.
Frontier süper bilgisayarı 9.472 Epyc 7A53 CPU ve 37.888 Radeon Instinct 37.888 GPU ile donatılmıştır. Ancak ekip, bir trilyon parametreli bir LLM’yi eğitmek için yalnızca 3.072 GPU ve 175 milyar parametreli başka bir LLM’yi eğitmek için ise 1.024 GPU kullandı.
Makale, bu kadar büyük bir Yüksek Lisans eğitimindeki en önemli zorluğun, minimum 14 terabayt olan gerekli bellek miktarı olduğunu belirtiyor. Bu, her biri 64 GB VRAM’e sahip birden fazla MI250X GPU’nun kullanılması gerektiği anlamına geliyordu, ancak bu yeni bir sorunu ortaya çıkardı: paralellik. Yüksek Lisans’a daha fazla GPU atmak, daha fazla kaynağı etkili bir şekilde kullanmak için giderek daha iyi iletişim gerektirir. Aksi takdirde, bu ekstra GPU beygir gücünün çoğu veya tamamı boşa harcanır.
Araştırma makalesi, bu bilgisayar mühendislerinin bunu tam olarak nasıl yaptıklarının ayrıntılarına giriyor, ancak kısa versiyonu, Megatron-DeepSpeed ve FSDP gibi çerçeveler üzerinde yineleyerek, eğitim programının Frontier’da daha iyi bir şekilde çalışması için bazı şeyleri değiştirdikleridir. Sonuçta sonuçlar oldukça etkileyiciydi; zayıf ölçeklendirme verimliliği %100’de kaldı; bu, temel olarak artan iş yükü boyutuyla daha fazla GPU’nun mümkün olduğunca verimli bir şekilde kullanıldığı anlamına geliyor.
Bu arada, güçlü ölçeklendirme verimliliği 175 milyar parametreli LLM için %89 ve bir trilyon parametreli LLM için %87 ile biraz daha düşüktü. Güçlü ölçeklendirme, iş yükünün boyutunu değiştirmeden işlemci sayısının artırılması anlamına gelir ve Amdahl yasasına göre bu, daha yüksek çekirdek sayılarının daha az kullanışlı hale geldiği yerdir. Kaç tane GPU kullandıkları göz önüne alındığında %87 bile iyi bir sonuçtur.
Ancak ekip, Frontier’da bu verimliliğin elde edilmesinde bazı sorunlara dikkat çekti ve “AMD GPU’larda verimli eğitim performansının araştırılması için daha fazla çalışma yapılması gerektiğini ve ROCm platformunun seyrek olduğunu” belirtti. Makalede belirtildiği gibi, bu ölçekteki makine öğreniminin çoğu, Nvidia’nın CUDA donanım-yazılım ekosistemi içinde yapılıyor ve bu da AMD ve Intel’in çözümlerini kıyaslandığında az gelişmiş bırakıyor. Doğal olarak bu tür çalışmalar bu ekosistemlerin gelişmesine de katkı sağlayacaktır.
Yine de dünyanın en hızlı süper bilgisayarı, tamamı AMD donanımıyla Frontier olmaya devam ediyor. İkinci sırada, GPU’lar da dahil olmak üzere tamamen Intel donanımıyla Aurora yer alıyor, ancak şu anda yalnızca yarısı kıyaslama gönderimleri için kullanılıyor. Nvidia GPU’ları üçüncü en hızlı süper bilgisayar olan Eagle’a güç veriyor. Eğer AMD ve Intel sıralamayı bu şekilde korumak istiyorsa iki şirketin Nvidia’nın yazılım çözümlerine yetişmesi gerekecek.