Çinli şirketler, çeşitli yapay zeka modellerini eğitmek için kullanılabilen Nvidia’nın önde gelen A100 ve H100 bilgi işlem GPU’larına erişimi kaybettikten sonra, onları en gelişmiş donanımı kullanmadan eğitmenin yollarını bulmak zorunda kaldılar. Çinli yapay zeka modeli geliştiricileri, güçlü GPU’ların eksikliğini telafi etmek için bunun yerine programlarını basitleştirerek gereksinimleri azaltıyor ve alabildikleri tüm bilgi işlem donanımını bir arada kullanıyorlar. Wall Street Gazetesi raporlar.
Nvidia, ABD Ticaret Bakanlığı’ndan bir ihracat lisansı almadan A100 ve H100 bilgi işlem GPU’larını Alibaba veya Baidu gibi Çinli kuruluşlara satamaz (ve herhangi bir başvuru neredeyse kesinlikle reddedilir). Bu nedenle Nvidia, düşük performans sunan ve engelli NVLink yetenekleriyle gelen A800 ve H800 işlemcileri geliştirdi; bu, geleneksel olarak büyük ölçekli yapay zeka modellerini eğitmek için gerekli olan yüksek performanslı çoklu GPU sistemleri oluşturma yeteneğini sınırlıyor.
Örneğin, WSJ’nin bildirdiğine göre, UBS analistlerinin tahminlerine göre, OpenAI’nin ChatGPT’sinin arkasındaki büyük ölçekli dil modelinin eğitilmesi için 5.000 ila 10.000 Nvidia’nın A100 GPU’su gerekiyor. Singapur Ulusal Üniversitesi’nde profesör ve HPC’nin kurucusu Yang You’ya göre, Çinli geliştiricilerin A100’lere erişimi olmadığı için, Nvidia’nın daha yüksek performanslı GPU’larının performansına benzer bir performans elde etmek için daha az yetenekli A800 ve H800’ü birlikte kullanıyorlar. -AI Tech. Nisan ayında Tencent, büyük ölçekli yapay zeka modeli eğitimi için Nvidia’nın H800’lerini kullanan yeni bir bilgi işlem kümesini tanıttı. Bu yaklaşım pahalı olabilir, çünkü Çinli firmalar benzer sonuçlar için ABD’deki meslektaşları H100’lere ihtiyaç duyacağından üç kat daha fazla H800’e ihtiyaç duyabilir.
Yüksek maliyetler ve ihtiyaç duydukları tüm GPU’ları fiziksel olarak alamamaları nedeniyle Çinli şirketler, büyük ölçekli yapay zeka modellerini farklı çip türlerinde eğitmek için yöntemler tasarladı; bu, ABD merkezli şirketlerin teknik zorluklar ve güvenilirlik endişeleri nedeniyle nadiren yaptığı bir şey. Örneğin, WSJ tarafından incelenen araştırma belgelerine göre Alibaba, Baidu ve Huawei gibi şirketler, Nvidia’nın A100s, V100s ve P100s ve Huawei’nin Ascends kombinasyonlarını kullanmayı keşfettiler.
Çin’de AI iş yükleri için işlemciler geliştiren çok sayıda şirket olmasına rağmen, donanımları Nvidia’nın CUDA’sı gibi sağlam yazılım platformları tarafından desteklenmiyor, bu nedenle bu tür çiplere dayalı makinelerin ‘ezilmeye eğilimli’ olduğu bildiriliyor.
Buna ek olarak, Çinli firmalar, henüz küresel olarak ilgi görmeyen bir yaklaşım olan büyük ölçekli yapay zeka modellerinin eğitiminin hesaplama gereksinimlerini azaltmak için çeşitli yazılım tekniklerini birleştirme konusunda daha agresif davrandılar. Zorluklara ve devam eden iyileştirmelere rağmen, Çinli araştırmacılar bu yöntemlerde bir miktar başarı gördüler.
Yakın tarihli bir makalede, Huawei araştırmacıları en yeni nesil büyük dil modelleri PanGu-Σ’yi yalnızca Ascend işlemcileri kullanarak ve Nvidia bilgi işlem GPU’ları olmadan eğittiklerini gösterdiler. Bazı eksiklikler olsa da, model okuduğunu anlama ve gramer testleri gibi birkaç Çince görevde son teknoloji performans elde etti.
Analistler, Çinli araştırmacıların, özellikle ChatGPT benzeri modelleri eğitmek için yararlı olan ek bir performans artırıcı özellik içeren Nvidia’nın yeni H100 çipine erişim olmadan daha fazla zorlukla karşılaşacakları konusunda uyarıyorlar. Bu arada, Baidu ve Peng Cheng Laboratuvarı tarafından geçen yıl yayınlanan bir makale, araştırmacıların ek özelliği alakasız hale getirebilecek bir yöntem kullanarak büyük dil modellerini eğittiklerini gösterdi.
SemiAnalysis’in baş analisti Dylan Patel’in “İyi çalışırsa, yaptırımları etkili bir şekilde atlatabilirler” dediği bildirildi.