Alibaba Bulut mühendisi ve araştırmacısı Ennan Zhai, araştırma makalesini şu adresten paylaştı: GitHubBulut sağlayıcısının LLM eğitimi için kullanılan veri merkezlerine yönelik tasarımını ortaya koyuyor. “Alibaba HPN: Büyük Dil Modeli Eğitimi için Bir Veri Merkezi Ağı” başlıklı PDF belgesi, Alibaba’nın 15.000 GPU’sunun birbiriyle iletişim kurmasına izin vermek için Ethernet’i nasıl kullandığını özetliyor.
Genel bulut bilişim, 10 Gbps’den düşük hızlarda tutarlı ancak küçük veri akışları üretir. Öte yandan, LLM eğitimi 400 Gbps’ye kadar ulaşabilen periyodik veri patlamaları üretir. Makaleye göre, “LLM eğitiminin bu özelliği, geleneksel veri merkezlerinde yaygın olarak kullanılan yük dengeleme şeması olan Eşit Maliyetli Çoklu Yol’u (ECMP) karma kutuplaşmasına yatkın hale getirir ve bu da eşit olmayan trafik dağılımı gibi sorunlara neden olur.”
Bunu önlemek için Zhai ve ekibi, olası ECMP oluşumlarının sayısını azaltırken sistemin “fil akışlarını tutabilen ağ yollarını hassas bir şekilde seçmesine” izin veren “2 katmanlı, çift düzlemli mimari” kullanan Yüksek Performanslı Ağ’ı (HPN) geliştirdi. HPN ayrıca, birbirlerini yedeklemelerine olanak tanıyan çift raf üstü (ToR) anahtarları kullandı. Bu anahtarlar, LLM eğitimi için en yaygın tek nokta arızalarıdır ve GPU’ların yinelemeleri senkronize bir şekilde tamamlamasını gerektirir.
Ana bilgisayar başına sekiz GPU, veri merkezi başına 1.875 ana bilgisayar
Alibaba Cloud veri merkezlerini ana bilgisayarlara böldü ve bir ana bilgisayar sekiz GPU ile donatıldı. Her GPU’nun iki portlu ağ arayüz kartı (NIC) vardır ve her GPU-NIC sistemi bir ‘ray’ olarak adlandırılır. Ana bilgisayar ayrıca arka uç ağına bağlanmak için fazladan bir NIC alır. Daha sonra her ray iki farklı ToR anahtarına bağlanır ve bir anahtar arızalansa bile tüm ana bilgisayarın etkilenmemesini sağlar.
Alibaba Cloud, NVlink’i ana bilgisayarlar arası iletişim için terk etmesine rağmen, ana bilgisayar içi ağ için hala Nvidia’nın tescilli teknolojisini kullanıyor, çünkü bir ana bilgisayar içindeki GPU’lar arasındaki iletişim daha fazla bant genişliği gerektiriyor. Ancak, raylar arasındaki iletişim çok daha yavaş olduğundan, ana bilgisayar başına “özel 400 Gbps RDMA ağ verimi, toplam 3,2 Tbps bant genişliğiyle sonuçlanıyor”, PCIe Gen5x16 grafik kartlarının bant genişliğini en üst düzeye çıkarmak için fazlasıyla yeterli.
Alibaba Cloud ayrıca 51,2 Tb/sn Ethernet tek çipli ToR anahtarı kullanır, çünkü çok çipli çözümler daha fazla kararsızlığa eğilimlidir ve tek çipli anahtarlara göre dört kat daha fazla arıza oranına sahiptir. Ancak bu anahtarlar sıcak çalışır ve piyasadaki hiçbir hazır ısı emici, aşırı ısınma nedeniyle kapanmalarını engelleyemez. Bu nedenle şirket, termal enerjiyi çok daha verimli bir şekilde taşımak için merkezde daha fazla sütun bulunan bir buhar odası ısı emici oluşturarak yenilikçi çözümünü yarattı.
Ennan Zhai ve ekibi, çalışmalarını bu Ağustos ayında Avustralya, Sidney’de düzenlenecek SIGCOMM (Veri İletişimleri Özel İlgi Grubu) konferansında sunacaklar. AMD, Intel, Google ve Microsoft dahil olmak üzere birçok şirket, öncelikle NVlink ile rekabet edecek açık standartlı bir bağlantı seti olan Ultra Accelerator Link’i oluşturmak için bir araya geldikleri için bu projeyle ilgilenecektir. Bu özellikle Alibaba Cloud’un HPN’yi sekiz aydan uzun süredir kullanıyor olması nedeniyle geçerlidir, yani bu teknoloji zaten denenmiş ve test edilmiştir.
Ancak HPN’nin hala bazı dezavantajları vardır; en büyüğü karmaşık kablolama yapısıdır. Her ana bilgisayarın dokuz NICS’si olması ve her NIC’in iki farklı ToR anahtarına bağlı olması nedeniyle, hangi jakın hangi bağlantı noktasına gideceğini karıştırma olasılığı çok yüksektir. Bununla birlikte, bu teknoloji muhtemelen NVlink’ten daha uygun maliyetlidir, bu nedenle veri merkezi kuran herhangi bir kurumun kurulum maliyetlerinden tonlarca tasarruf etmesine olanak tanır (ve hatta belki de Nvidia teknolojisinden kaçınmasına olanak tanır, özellikle de onaylanan şirketlerden biriyse). Çin ile devam eden çip savaşında ABD tarafından).