NVIDIA ve Rowhammer Saldırıları: GDDR6 Bellek Koruması
NVIDIA, kullanıcıları Sistem Seviyesi Hata Düzeltme Kodu (ECC) korumasını etkinleştirmeye çağırıyor. Bu uyarı, GDDR6 bellek kullanan grafik işlemcilerde, Rowhammer saldırılarına karşı korunma sağlamak amacıyla yapılmıştır. Özellikle, yeni araştırmalar NVIDIA A6000 GPU’ya yönelik bir Rowhammer saldırısını göstermektedir.
Rowhammer Nedir?
Rowhammer, yazılım süreçleri aracılığıyla tetiklenebilen bir donanım hatasıdır. Bu hata, bellek hücrelerinin birbirine çok yakın olmasından kaynaklanır. Özellikle DRAM hücreleri üzerinde gösterilen bu saldırı yöntemi, GPU belleğini de etkileyebilir. Rowhammer, yeterince okuma-yazma işlemiyle bir bellek satırına erişim sağlayarak, komşu veri bitlerinin değerlerinin birbirine geçmesini sağlamakta, bu da bellekteki bilgilerin değişmesine yol açmaktadır.
Bu saldırının sonuçları arasında hizmetin reddi durumu, veri bozulması veya hatta erişim yetkilerinin artırılması yer alabilir. Bu sebeple, Sistem Seviyesi Hata Düzeltme Kodları (ECC) ekleme yaparak veri bütünlüğünü korumakta önemli bir rol oynamaktadır.
Neden ECC Önemlidir?
Eğer ECC etkinleştirilmezse, kritik veriler bozulabilir ve bu da özellikle iş istasyonları veya veri merkezleri için büyük riskler oluşturur. GPU’lar büyük veri setleri ve AI yükleri ile ilgili hassas hesaplamalar yönettiği için, ECC’nin etkinleştirilmesi, çalışmalardaki hataları önlemek açısından zorunludur.
NVIDIA’nın güvenlik bildirimi, Toronto Üniversitesi araştırmacılarının “NVIDIA A6000 GPU GDDR6 belleğinde potansiyel bir Rowhammer saldırısı” gösterdiğini ifade etmektedir. Bu araştırmada, GPUHammer adı verilen bir saldırı yöntemi ile GPU belleklerinde bitlerin geçişi sağlanmıştır.
Rowhammer Saldırısı ve GDDR6 Bellek
GDDR6 bellekte Rowhammer saldırıları, yüksek gecikme ve daha hızlı yenileme süreleri nedeniyle daha zor olsa da, araştırmacılar bu tür saldırıların mümkün olduğunu göstermiştir. Özellikle bu tür saldırılar, çok kiracılı ortamlar gibi sistemlere yönelik büyük tehlikeler arz etmektedir.
NVIDIA, sadece RTX A6000 değil, aşağıdaki ürünler için de Sistem Seviyesi ECC’nin etkinleştirilmesini önermektedir:
Veri Merkezi GPU’ları
- Ampere: A100, A40, A30, A16, A10, A2, A800
- Ada: L40S, L40, L4
- Hopper: H100, H200, GH200, H20, H800
- Blackwell: GB200, B200, B100
- Turing: T1000, T600, T400, T4
- Volta: Tesla V100, Tesla V100S
İş İstasyonu GPU’ları
- Ampere RTX: A6000, A5000, A4500, A4000, A2000, A1000, A400
- Ada RTX: 6000, 5000, 4500, 4000, 4000 SFF, 2000
- Blackwell RTX PRO: (en yeni iş istasyonu serisi)
- Turing RTX: 8000, 6000, 5000, 4000
- Volta: Quadro GV100
Gömülü/Endüstriyel
- Jetson AGX Orin Industrial
- IGX Orin
Daha yeni GPU’lar, örneğin Blackwell RTX 50 Serisi gibi bazı modellerde yerleşik ECC koruması bulunmaktadır; bu, kullanıcı müdahalesi gerektirmeden otomatik olarak çalışmaktadır.
ECC Kontrolü
Sistem Seviyesi ECC’nin etkin olup olmadığını kontrol etmenin bir yolu, sistemin BMC (Temel Kart Yönetim Kontrolörü) ve donanım arayüz yazılımını kullanarak yapılabilen dışsal yöntemler kullanmaktır. Redfish API bu yöntemler arasında öne çıkar. NSM Type 3 ve NVIDIA SMBPBI gibi araçlar da ECC yapılandırması için kullanılabilmektedir, ancak bu araçlar NVIDIA Ortak Portalı’na erişim gerektirmektedir.
Bir diğer yöntem ise nvidia-smi komut satırı aracını kullanarak CPU’dan ECC’yi kontrol etmek ve etkinleştirmektir.
Sonuç
Rowhammer, veri koruma açısından gerçek bir güvenlik kaygısı oluşturmaktadır. Çok kiracılı ortamlar gibi sistemlerde, zayıf GPU’ların kullanılması durumunda veri bozulması ya da saldırı ihtimali doğabilir. Ancak, Rowhammer’ın güvenilir bir şekilde sömürülebilmesi karmaşık bir süreçtir. Bu, belirli koşullar, yüksek erişim hızları ve hassas kontrol gerektirdiğinden, uygulaması zor bir saldırı türüdür. Bu nedenle, NVIDIA’nın ECC önerisi, bu tür riskleri azaltmak açısından kritik bir öneme sahiptir.


