Yapay zekaya olan talep bugünlerde çok büyük. Fransız firması Schneider Elektrik Yapay zeka iş yüklerinin güç tüketiminin 2023’te toplam 4,3 GW civarında olacağı tahmin ediliyor; bu, Kıbrıs ulusunun güç tüketiminden biraz daha düşük (4,7 GW) idi 2021’de. Şirket, yapay zeka iş yüklerinin güç tüketiminin yıllık bileşik büyüme oranı (CAGR) olarak %26 ila %36 arasında artacağını tahmin ediyor; bu da, yapay zeka iş yüklerinin 2028 yılına kadar 13,5 GW’tan 20 GW’a kadar enerji tüketeceğini gösteriyor; bu, İzlanda’dakinden daha fazla. 2021 yılında tüketildi.
Muazzam Güç Gereksinimleri
Schneider Electric’e göre 2023 yılında tüm veri merkezlerinin toplam güç tüketiminin 54 GW olacağı tahmin ediliyor ve yapay zeka iş yükleri bu talebin 4,3 GW’ını oluşturuyor. Bu yapay zeka iş yükleri içinde, eğitim ve çıkarım arasındaki dağılım, gücün %20’sinin eğitim amacıyla tüketilmesi ve %80’inin çıkarım görevlerine tahsis edilmesiyle karakterize edilir. Bu, yapay zeka iş yüklerinin bu yıl veri merkezlerinin toplam güç tüketiminin yaklaşık %8’inden sorumlu olacağı anlamına geliyor.
2028 yılına baktığımızda Schneider, veri merkezlerinin toplam güç tüketiminin 90 GW’a çıkacağını ve yapay zeka iş yüklerinin bu toplamın 13,5 GW ila 20 GW’ını tüketeceğini tahmin ediyor. Bu, 2028 yılına kadar yapay zekanın veri merkezlerinin toplam güç kullanımının yaklaşık %15 ila %20’sini tüketmekten sorumlu olabileceğini gösteriyor; bu da beş yıllık dönemde veri merkezlerinde yapay zeka iş yükleri tarafından tüketilen güç oranında önemli bir artış olduğunu gösteriyor. Schneider Electric’in tahminlerine göre, eğitim ve çıkarım arasındaki dağılımın, gücün %15’ini eğitim tükettiği ve %85’ini çıkarımın oluşturduğu bir şekilde biraz değişmesi bekleniyor.
AI GPU’lar Açlaşıyor
Yapay zeka veri merkezlerinde artan güç tüketimi, öncelikle yapay zeka iş yüklerinin yoğunlaşmasına, yapay zeka GPU’ları ve yapay zeka işlemcilerindeki gelişmelere ve diğer veri merkezi donanımlarının artan gereksinimlerine bağlanıyor. Örneğin, Nvidia’nın 2020’deki A100’ü 400W’a kadar tüketiyor, 2022’deki H100 ise 700W’a kadar tüketiyor. AI sunucuları, GPU’lara ek olarak çok fazla güç tüketen CPU’ları ve ağ kartlarını da çalıştırır.
Yapay zeka iş yükleri, özellikle de eğitimle ilişkili olanlar, yapay zeka GPU’ları, özel ASIC’ler veya CPU’lar ile donatılmış özel sunucular dahil olmak üzere önemli miktarda bilgi işlem kaynakları gerektirir. Yapay zeka modellerinin karmaşıklığından ve büyüklüğünden etkilenen yapay zeka kümelerinin boyutu, güç tüketiminin önemli bir belirleyicisidir. Daha büyük yapay zeka modelleri, daha fazla sayıda GPU gerektirir, dolayısıyla genel enerji gereksinimlerini artırır. Örneğin, 22.000 H100 GPU’lu bir küme yaklaşık 700 raf kullanır. H100 tabanlı bir raf, sekiz HPE Cray XD670 GPU hızlandırmalı sunucuyla doldurulduğunda toplam 80 kW raf yoğunluğuna neden olur. Sonuç olarak Schneider Electric, soğutma gibi ek altyapı ihtiyaçları için gereken enerji hariç, tüm kümenin yaklaşık 31 MW güç talep ettiğini belirtiyor.
Bu kümeler ve GPU’lar genellikle eğitim süreçleri boyunca neredeyse tam kapasiteyle çalışır ve ortalama enerji kullanımının neredeyse en yüksek güç tüketimiyle eşanlamlı olmasını sağlar. Belge, önemli AI kümelerindeki raf yoğunluklarının, GPU’nun miktarına ve modeline bağlı olarak 30 kW ile 100 kW arasında değiştiğini belirtiyor.
Ağ gecikmesi, yapay zeka veri merkezlerinin güç tüketiminde de önemli bir rol oynar. Dağıtılmış eğitim süreçleri sırasında güçlü GPU’ların gerektirdiği yüksek hızlı veri iletişimini desteklemek için gelişmiş bir ağ altyapısı gereklidir. 800 Gb/s’ye kadar hızları destekleyebilenler gibi yüksek hızlı ağ kablolarına ve altyapılarına duyulan ihtiyaç, genel enerji tüketimini daha da artırıyor.
Yapay zeka iş yüklerinin çok fazla güce ihtiyaç duyan ASIC’ler, GPU’lar, CPU’lar, ağ kartları ve SSD’ler gerektirdiği göz önüne alındığında, soğutma büyük bir zorluk teşkil ediyor. Yüksek raf yoğunlukları ve hesaplama süreçleri sırasında üretilen muazzam ısı göz önüne alındığında, optimum performansı sürdürmek ve donanım arızalarını veya arızalarını önlemek için etkili soğutma çözümleri zorunludur. Öte yandan hava ve sıvı soğutma yöntemleri de güç tüketimi açısından ‘pahalı’; bu nedenle yapay zeka iş yükleri için kullanılan veri merkezlerinin güç tüketimine de büyük oranda katkıda bulunuyorlar.
Bazı Öneriler
Schneider Electric, AI donanımının güç tüketiminin yakın zamanda azalmasını beklemiyor ve şirket, AI rafının güç tüketiminin 100 kW veya daha yüksek olmasını tamamen bekliyor. Bu nedenle Schneider Electric’in yapay zeka iş yükleri konusunda uzmanlaşmış veri merkezleri için bazı önerileri var.
Özellikle Schneider Electric, yapay zeka iş yüklerinin yüksek güç yoğunluklarına daha iyi uyum sağlamak için geleneksel 120/208V dağıtımdan 240/415V dağıtıma geçişi öneriyor. Soğutma için, işlemci güvenilirliğini ve enerji verimliliğini artırmak amacıyla hava soğutmadan sıvı soğutmaya geçiş yapılması tavsiye edilir, ancak kapsamlı soğutma daha da iyi sonuçlar verebilir. Kullanılan rafların daha geniş, en az 750 mm genişliğinde ve statik ağırlık kapasitesinin 1.800 kg’dan fazla olması gibi özelliklere sahip olması gerekmektedir.