Nvidia, bu hafta başında Ada Lovelace grafik işlem birimleri ailesini tanıttığında, temel olarak sınıfının en iyisi AD102 GPU’ya ve amiral gemisi GeForce RTX 4090 grafik kartına odaklandı. AD103 ve AD104 grafik yongaları hakkında çok fazla ayrıntı yayınlamadı. Neyse ki Nvidia, yeni GPU’lar hakkında birçok veri içeren ve birçok boşluğu dolduran Ada Lovelace teknik incelemesini bugün yükledi. RTX 40 serisi GPU’ları bildiğimiz her şeyi yeni ayrıntılarla güncelledik, ancak işte yeni ve ilginç bilgilere genel bakış.
Büyük Oyun İçin Büyük GPU’lar
Nvidia’nın en üst seviye AD102’sinin 76,3 milyar transistör, 18.432 CUDA çekirdeği ve 96MB L2 önbellek içeren 608 mm^2 GPU olduğunu zaten biliyoruz. Artık AD103’ün 45,9 milyar transistör, 10,240 CUDA çekirdeği ve 64MB L2 önbelleğe sahip 378,6 mm^2 grafik işlemcisi olduğunu da biliyoruz. AD104’e gelince, 294,5 mm^2’lik bir kalıp boyutuna, 35,8 milyar transistöre, 7680 CUDA çekirdeğine ve 48MB L2’ye sahiptir.
GPU/Grafik Kartı | Tam AD102 | RTX 4090 | RTX4080 16GB | RTX4080 12GB | RTX 3090 Ti |
---|---|---|---|---|---|
Mimari | AD102 | AD102 | AD103 | AD104 | GA102 |
İşlem teknolojisi | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | Samsung 8LPP |
Transistörler (Milyar) | 76.3 | 76.3 | 45.9 | 35.8 | 28.3 |
Kalıp boyutu (mm^2) | 608 | 608 | 378.6 | 294.5 | 628.4 |
Çok İşlemcili Akış | 144 | 128 | 76 | 60 | 84 |
GPU Çekirdekleri (Shader) | 18432 | 16384 | 9728 | 7680 | 10752 |
Tensör Çekirdekleri | 576 | 512 | 320 | 240 | 336 |
Işın İzleme Çekirdekleri | 144 | 144 | 80 | 60 | 84 |
TMU’lar | 512 | 512 | 304? | 240 | 336 |
ROP’lar | 192 | 192 | 112 | 80 | 112 |
L2 Önbellek (MB) | 96 | 96 | 64 | 48 | 6 |
Hızlandırma Saati (MHz) | ? | 2520 | 2505 | 2600 | 1860 |
TFLOPS FP32 (Yükseltme) | ? | 82.6 | 48.7 | 40.1 | 40.0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (Yok) |
TFLOPS Işın İzleme | ? | 191 | 113 | 82 | 78.1 |
Bellek Arayüzü (bit) | 384 | 384 | 256 | 192 | 384 |
Bellek Hızı (GT/sn) | ? | 21 | 22.4 | 21 | 21 |
Bant genişliği (GBps) | ? | 1008 | 736 | 504 | 1008 |
TDP (watt) | ? | 450 | 320 | 285 | 450 |
Lansman tarihi | ? | 12 Ekim 2022 | Kasım 2022? | Kasım 2022? | Mart 2022 |
Lansman Fiyatı | ? | 1.599$ | $1,199 | $899 | $1,999 |
Nvidia’nın teknik incelemesinde anlattığı ilginç şeylerden biri, Ada Lovelace GPU’ların maksimum saat hızlarını artırmak için kritik yollarda yüksek hızlı transistörler kullanmasıdır. Sonuç olarak, 18,432 CUDA çekirdeğine sahip tam etkin AD102 GPU’su “aynı 450W TGP’yi korurken 2,5 GHz üzerindeki saatlerde çalışabilir.” Bunu akılda tutarak, şirketin laboratuvarlarında ulaştığı GeForce RTX 4090 (16,384 CUDA çekirdeği ile) için 3.0 GHz saatlerinden bahsetmesine şaşırmadık. 3.0 GHz hızında GeForce RTX 4090, kesinlikle en iyi grafik kartları listemizde başı çekecek.
Nvidia’nın Ada Lovelace GPU’su, yüksek saat hızlarına ek olarak, yoğun bilgi işlem iş yüklerinde (örneğin ışın izleme, yol izleme, simülasyonlar, vb.) performansı artıran ve bellek bant genişliği gereksinimlerini azaltan devasa L2 önbelleklerine de sahiptir. Esasen, Nvidia’nın Ada GPU’ları, RDNA 2 Infinity Cache’nin buradaki kitabından bir sayfa alıyor, ancak yeni mimari için genel hedeflerin, AMD’nin Radeon RX 6000 serisi ürünleri 2020’de piyasaya çıkmadan çok önce belirlendiğine inanıyoruz.
Simülasyonlar gibi iş yüklerinden bahsetmişken, sonuçların doğruluğunu artırmak için süper bilgisayar dünyasında bunların çift duyarlıklı kayan nokta biçimindeki (FP64) sayılarla gerçekleştirildiğini unutmamalıyız. FP64, hem performans hem de donanım karmaşıklığı açısından FP32’den daha maliyetlidir. Bu nedenle bilgisayar grafikleri FP32 formatlarını kullanır ve kritik olmayan varlıkların birçok simülasyonu da FP32 hassasiyeti ile yapılır. Bu arada, AD102 GPU, FP64 Tensor Core kodu da dahil olmak üzere FP64 koduna sahip tüm programların doğru çalışmasını sağlamak için dahil edilen yalnızca 288 FP64 çekirdeğine (akışlı çoklu işlemci başına iki tane) sahiptir.
Yine de AD102’nin FP64 oranı, FP32 işlemlerinin TFLOP oranının (Amper mimarisine uygun) 1/64’ü kadardır. Nvidia, akışlı çok işlemcili (SM) modüllerinin şemalarında FP64 çekirdeklerini göstermez ve AD103 ve AD104 GPU’larda bu tür çekirdeklerin sayısını açıklamaz. Ada grafik işlemcilerinin düşük FP64 oranı, bu parçaların öncelikle oyun oynamaya yönelik olduğunu vurguluyor.
Daha Fazla Transistör = Daha Fazla Performans
Şirketin Ampere GPU’larına kıyasla Nvidia’nın Ada Lovelace grafik işlemcilerinin karmaşıklığı ve kalıp boyutları sürpriz olmamalı. Yeni Ada GPU’ları, TSMC’nin 4N (5nm sınıfı) üretim teknolojileri kullanılarak yapılırken, Ampere, Samsung Foundry’nin 8LPP işleminde (10 nm sınıfında %10 optik küçültme ile bir düğüm) üretildi. Bu ek karmaşıklık (transistör sayısı), ışın izleme gibi şeylerde etkileyici performans kazanımları ve DLSS 3.0 ile kalite kazanımları sağlayan şeydir.
GPU/Grafik Kartı | AD102 | RTX 4090 | RTX4080 16GB | RTX4080 12GB | RTX 3090 Ti |
---|---|---|---|---|---|
GPU | AD102 | AD102 | AD103 | AD104 | GA102 |
TFLOPS FP32 (Yükseltme) | ? | 82.6 | 48.7 | 40.1 | 40.0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (Yok) |
TFLOPS Işın İzleme | ? | 191 | 113 | 82 | 78.1 |
Unutulmaması gereken bir diğer nokta ise Nvidia’nın AD102 GPU’sunun daha küçük kardeşlerinden daha yüksek transistör yoğunluğuna sahip olmasıdır. Bir yandan, %3,6’lık ilave transistör yoğunluğu, daha küçük kardeşlerine kıyasla AD102’ye önemli ölçüde daha fazla yürütme birimi yerleştirmesine izin veriyor. Ancak diğer yandan, AD103 ve AD104’ün gevşemiş transistör yoğunluğu çoğu durumda daha iyi verimler (düğümün kusur yoğunluğunun genel olarak yüksek olmadığı varsayılarak) ve daha yüksek saatler sağlar.
AD103 ve AD104’ün frekans potansiyeli hakkında gerçek donanıma erişim ve/veya gerçek verim oranları hakkında bilgi sahibi olmadan tahminlerde bulunmak zordur. Bununla birlikte, AD102 2.50 GHz ~ 3.0 GHz’de çalışabilirse, AD103 ve AD104’ün daha da yüksek potansiyele sahip olmasını beklemek mantıklıdır. RTX 4080 12GB’nin 2610 MHz’de çalışan tam etkin bir AD104 yongası kullandığını, RTX 4080 16GB’nin ise 2505 MHz’de çalışan bir AD103 yongasının (80 SM’nin 76’sı) %95’ini ve RTX 4090’ın yalnızca %89’unu kullandığını biliyoruz ( 128 / 144 SM) 2510 MHz’de çalışır – ayrıca L2 önbelleğinin %25’i devre dışıyken.
Yüksek karmaşıklıkla sağlanan aşırı sayıda yürütme birimi, yüksek saatlerle birleştiğinde dikkate değer performans kazanımları sağlamalıdır. Nvidia’nın GeForce RTX 4090’ı, GeForce RTX 3090 Ti’ye (~40 TFLOPS) kıyasla iki kat daha yüksek teorik FP32 işlem hızına (~82,6 TFLOPS) sahiptir.
Bu arada, Nvidia’nın talepkar oyuncular için mevcut Ada GPU’ları, şirketin üst düzey oyun pazarına üç çipli yaklaşımıyla geri döndüğünü gösteriyor. Normalde Nvidia, amiral gemisi oyun GPU’sunu piyasaya sürer, ardından amiral gemisinin kaynaklarının yaklaşık %66 ~ %75’ine (örneğin, CUDA çekirdekleri) sahip bir çip ile takip eder ve ardından amiral gemisi birimlerinin yaklaşık %50’sine sahip bir grafik işlemcisini ortaya çıkarır. Ampere ailesinde, Nvidia’nın GA103 yongası esas olarak dizüstü bilgisayarlar düşünülerek tasarlandığından ve masaüstü bilgisayarlara zar zor geldiği için (partiye de geç kalmıştı), ancak Ada nesli ile Nvidia her zamanki yaklaşımına geri döndüğü için bu strateji biraz ayarlandı. üç cips.
Daha Fazla SKU Gelen
İlginç bir çıkarım, AD102 GPU ve GeForce RTX 4090 grafik kartı tarafından sunulan maksimum yapılandırmalar arasındaki farktır. AD102, 18.432 CUDA çekirdeği paketlerken GeForce RTX 4090, 16.384 CUDA çekirdeği etkinleştirilmiş olarak gelir. Böyle bir yaklaşım, Nvidia’ya verim ve gelecekte yeni grafik kartlarının piyasaya sürülmesi konusunda biraz ek esneklik sağlar, bu nedenle ProViz pazarları için RTX 4090 Ti, RTX 4080 Ti ve RTX 5500/5000 Ada Generation için bolca yer vardır.
Bu arada GeForce RTX 4080 16GB ve RTX 4080 12GB, sırasıyla neredeyse eksiksiz AD103 ve tam teşekküllü AD104 GPU’lar kullanıyor. Geleceğin ne getireceğini bilmiyoruz, ancak sonunda AD103 ve AD104 GPU’ların kısaltılmış sürümlerini göreceğimizi tahmin ediyoruz. AD104 yongasının azaltılmış kutularına dayalı olarak GeForce RTX 4070 Ti ve/veya RTX 4070 hakkında ve ayrıca AD103 grafik işlemcisi tarafından desteklenen dizüstü bilgisayarlar için ultra üst düzey grafik çözümleri potansiyeli hakkında spekülasyon yapabiliriz, ancak yalnızca Bu parçaların özellikleri hakkında tahminde bulunun.
Bazı düşünceler
Nvidia’nın Ada Lovelace mimarisi, Ampere mimarisi üzerinde hem niteliksel hem de niceliksel bir sıçramadır. Nvidia, ışın izleme, tensör çekirdekleri ve diğer bazı birimlerin mimari düzeydeki performansını ciddi biçimde artırmakla kalmadı, aynı zamanda sayılarını artırdı ve saatlerini artırdı. Buradaki önemli bir gelişme, Ampere GPU’lara kıyasla Ada GPU’ların büyük ölçüde artırılmış L2 önbellekleridir.
Bu sıçramalar, büyük ölçüde, TSMC’nin Nvidia GPU için optimize edilmiş 4N işlem teknolojisi tarafından sağlandı. Ayrıca şirket, yeni grafik işlemcilerinin frekanslarını artırmak için yüksek hızlı transistörler de kullandı ve bu da ek performans kazanımları sağladı.
Ancak Nvidia’nın yeni GPU’larının önde gelen bir üretim düğümü ve büyük kalıp boyutları da parçaların üretilmesini önemli ölçüde daha pahalı hale getiriyor, bu nedenle GeForce RTX 4080 ve 4090 grafik kartlarının fiyatları, doğrudan öncekilerden çok daha yüksek fiyat etiketleri taşıyor.
Nvidia, şimdiye kadar yalnızca beş Ada Lovelace tabanlı ürün tanıttı: masaüstü bilgisayarlar için GeForce RTX 4080 12GB, RTX 4080 16GB ve RTX 4090 grafik kartlarının yanı sıra iş istasyonu/veri merkezleri için RTX 6000 Ada nesli ve yüksek için L40 (Lovelace 40) anakartlar. son iş istasyonları ve sanallaştırılmış iş istasyonu ortamları.
Şirketin tam yağlı AD102 ve AD102, AD103 ve AD104 GPU’ların kısaltılmış versiyonlarını sunabileceğini düşünürsek, istemci makineler için çok sayıda yeni GeForce RTX 40 serisi kart ve veri merkezleri için Ada RTX serisi çözümler düşünebiliriz. Bu arada, Nvidia muhtemelen daha küçük GPU’lar (AD106, AD107) hazırlıyor, bu nedenle Ada Lovelace ürün ailesi en az Ampere serisi kadar geniş olacak gibi görünüyor.