Phison’un GTC 2024’teki standı beklenmedik bir sürprizle karşılaştı: Şirket, yapay zeka iş yükleri için etkili bellek alanını genişletmek amacıyla SSD’ler ve DRAM kullanan dört GPU’lu tek bir iş istasyonunun tanıtımını yaptı ve bu da genellikle 24 H100’e yayılmış 1,4 TB VRAM gerektiren bir iş yükünü çalıştırmasına olanak tanıdı. GPU’lar. Şirketin yeni aiDaptiv+ platformu, eğitim için mevcut GPU VRAM miktarını artırmak amacıyla sistem DRAM’i ve SSD’leri kullanarak AI LLM eğitiminin engellerini azaltmak üzere tasarlandı; Phison, kullanıcıların yoğun üretken AI eğitim iş yüklerini çok daha düşük bir maliyetle gerçekleştirmelerine olanak tanıyacağını söylüyor. Düşük giriş maliyeti yerine daha düşük performans ve dolayısıyla daha uzun eğitim süreleri karşılığında, yalnızca standart GPU’ları kullanmanın maliyeti.
Bu tür bir dağıtımı kullanan işletmelerin avantajı, maliyetleri düşürebilmeleri, sektörü rahatsız etmeye devam eden ezici GPU eksikliklerinden kaçınabilmeleri ve ayrıca şirket içinde eğittikleri açık kaynaklı modelleri kullanabilmeleri ve böylece hassas özel verileri saklamalarına olanak tanımalarıdır. şirket içi. Phison ve ortakları, platformu KOBİ’lere ve genel LLM eğitim süreleriyle pek ilgilenmeyen ancak kullanıma hazır önceden eğitilmiş modeller kullanmaktan ve onları kendi özel veri kümeleri üzerinde eğitmekten yararlanabilecek diğer kullanıcılara hedeflemektedir.
Şirketin demosu, 70 milyar parametreli bir modeli çalıştıran dört adet Nvidia RTX 6000 Ada A100 GPU’lu tek bir iş istasyonunu göstererek teknoloji için güçlü bir kanıt noktası oluşturdu. Daha büyük yapay zeka modelleri daha doğru ve daha iyi sonuçlar veriyor ancak Phison, bu boyuttaki bir modelin genellikle bir sunucu rafındaki altı sunucuya dağıtılmış 24 yapay zeka GPU’ya yayılmış yaklaşık 1,4 TB VRAM ve gerekli tüm destekleyici ağ ve donanım gerektirdiğini tahmin ediyor.
Phison’un adDaptiv+ çözümü, yapay zeka modelinin aktif olarak hesaplanmayan katmanlarını VRAM’den ‘dilimleyen’ ve bunları sistem DRAM’ine gönderen bir ara yazılım yazılım kütüphanesi kullanıyor. Veriler daha sonra ihtiyaç duyulursa DRAM’de kalabilir veya daha düşük önceliğe sahipse SSD’lere aktarılabilir. Veriler daha sonra gerektiğinde hesaplama görevleri için geri çağrılır ve GPU VRAM’e geri taşınır; yeni işlenen katman, işlenecek bir sonraki katmana yer açmak için DRAM ve SSD’ye aktarılır.
Phison demosunu şununla gerçekleştirdi: Maingear’ın yeni Pro AI iş istasyonu. Bu demo sistemi bir Xeon w7-3445X işlemci, 512 GB DDR5-5600 bellek ve iki özel 2 TB Phison SSD (bununla ilgili daha fazla bilgi aşağıda) ile donatılmıştır. Bununla birlikte, tek GPU ile 28.000 ABD Doları ile dört GPU’lu bir sistem için 60.000 ABD Doları arasında değişen çeşitli çeşitleri mevcuttur. Doğal olarak bu, altı veya sekiz GPU eğitim sunucusunu tüm gerekli ağ bağlantısıyla bir araya getirmek için gereken miktarın çok küçük bir kısmı. Ayrıca bu sistemler tek bir 15A devre üzerinde çalışacakken, sunucu kabini çok daha sağlam bir elektrik altyapısına ihtiyaç duyacaktır.
Maingear, Phison’un yeni platform için lider donanım ortağıdır ancak şirketin aynı zamanda yeni platform için çözümler sunacak olan MSI, Gigabyte, ASUS ve Deep Mentor gibi birçok başka ortağı da vardır.
Phison’un yeni aiDaptiveCache ai100E SSD’leri standart M.2 form faktörüyle gelir ancak iş yüklerini önbelleğe almak için özel olarak tasarlanmıştır. Phison henüz bu SSD’lerin ayrıntılı ayrıntılarını paylaşmıyor ancak hem performansı hem de dayanıklılığı artırmak için SLC flaş kullandıklarını biliyoruz. Sürücüler, beş yıl boyunca günde 100 sürücü yazma işlemi için derecelendirilmiştir; bu, standart SSD’lere kıyasla olağanüstü derecede dayanıklıdır.
Yukarıdaki slaytlarda görebileceğiniz gibi aiDaptive ara yazılımı Pytorch/Tensor Flow katmanının altında bulunur. Phison, ara yazılımın şeffaf olduğunu ve yapay zeka uygulamalarında değişiklik yapılmasını gerektirmediğini söylüyor.
Bu tür bir eğitim oturumunu tek bir iş istasyonuyla gerçekleştirmek elbette maliyetleri önemli ölçüde azaltacaktır ancak bu, performanstan ödün verilmesine neden olacaktır. Phison, bu tek kurulumun, sekiz düğüme yayılmış 30 GPU’lu büyük bir modelin eğitim maliyetinden altı kat daha düşük olduğunu, ancak modellerin eğitiminin yaklaşık dört kat daha uzun süreceğini tahmin ediyor. Şirket ayrıca maliyetin yarısından biraz daha fazla bir ücret karşılığında dört düğümü birbirine bağlayan bir ölçeklendirme seçeneği sunuyor ve bu seçeneğin, 30 GPU’lu sistemdeki eğitim süresini 0,8 saate kıyasla 70B modeli için 1,2 saate düşürdüğünü söylüyor.
Bu hamle, Phison’ın SSD denetleyicileri ve yeniden zamanlayıcılar oluşturmaya yönelik standart modelinden, genel çözüm maliyetlerini büyük ölçüde azaltarak AI LLM eğitiminin erişilebilirliğini artıran yeni hibrit yazılım ve donanım çözümleri sağlamaya doğru genişlediğine işaret ediyor. Phison’un yeni yazılıma yönelik sistemleri pazara sunacak bir dizi ortağı var ve önümüzdeki aylarda daha fazla duyuru görmeyi bekliyoruz. Her zaman olduğu gibi, performansın kanıtı üçüncü taraf kıyaslamalarında olacak, ancak sistemler artık Phison’un müşterilerini kapsayacak şekilde filtrelendiğinden, gerçek dünyadan bazı örnekleri görmemiz muhtemelen çok uzun sürmeyecek.