AMD’nin EPYC 7002 ‘Roma’ sunucu çipleri için en son işlemci revizyon kılavuzu, çip üzerindeki bir çekirdeğin 1.044 günlük çalışma süresinden sonra (~2,93 yıl) askıda kalmasına neden olabilen ilginç yeni bir hatayı (errata) ortaya koyuyor, bu da sıfırlamanız gerekeceği anlamına geliyor çipin düzgün çalışması için sunucu. AMD sorunu çözmeyeceğini söylüyor.
AMD’nin ikinci nesil EPYC işlemcilerini (AMD’nin dördüncü nesil Genoa yongaları en yenileri) etkileyen sorunla ilgili açıklaması kısa ve öz ancak açıklanması gereken çok şey var.
Sorun, çekirdeğin CC6 uyku durumundan çıkamamasından kaynaklanıyor, ancak AMD, arızanın zamanlamasının, çipin zamanı takip etmesine yardımcı olan referans saat olan yayılma spektrumu ve REFCLK frekansına bağlı olarak değişebileceğini söylüyor.
Reddit kullanıcısı acid_migrain’in makul bir teorisi var çekirdeğin tam zamanlaması hakkında kilitleniyor, “Söylediklerine rağmen, sorun aslında 1042 gün ve kabaca 12 saatte ortaya çıkıyor. TSC 2800 MHz’de çalışıyor ve 2800 * 10**6 * 1042.5 gün neredeyse 0x380000000000000’e eşit, ki tesadüf olamayacak kadar çok sıfır var.”
Düzeltme basittir – ya 1.044 günlük “zamanlayıcınızı” yeniden başlatmak için CPU’yu sıfırlayan 1.044 günlük çalışma süresinden önce yeniden başlatın ya da CC6 uyku durumunu devre dışı bırakın.
Bu hata ilgi çekici olsa da, kullanıcıların çoğunluğu için dikkat çekici değil ve çiplerdeki hatalar kesinlikle sıra dışı değil. Modern CPU’lar, insanoğlunun ürettiği en karmaşık cihazlardır ve neredeyse her zaman, çipler son nakliye revizyonlarına (adımlama) ulaştıktan sonra ya da sırasında keşfedilen çok sayıda hata/hata ile piyasaya çıkarlar.
Milyarlarca transistör iş başındayken, sorunların çıkması kaçınılmazdır: Bir yonganın, piyasaya sürülmeden önce yonganın daha yeni adımlarında veya ürün yazılımı ince ayarlarında düzeltilen bin veya daha fazla hataya/hataya sahip olması alışılmadık bir durum değildir. Bu hatalar, güvenlik açıklarından arızalı bayraklara ve düzgün çalışmayan önbellek etiketlerine kadar her türlü hatayı kapsayabilir ve çip üreticileri bunları lansmandan önce durdurmak için ellerinden gelenin en iyisini yaparlar.
Bununla birlikte, sevkıyat çiplerinde bile bazı hatalar her zaman kalır. Örneğin, Intel’in 8. neslinde hala 150’den fazla listelenmiş hata hatası var ve yongalar 2017’de piyasaya sürüldü. AMD, çözülmüş olan hata listelerini kaldırdığı için Roma yongalarının kaç tane hata hatası olduğunu bilmiyoruz. . Ancak, 39 hatanın kaldığını biliyoruz ki bu aslında Intel’in arka planında çok da kötü görünmüyor.
Bazı yazım hataları, herhangi bir zarar vermedikleri için onarılmadan bırakılır, ancak bir saldırı vektörünü açık bırakabilecek kritik hatalar dışında, işlevsellikle ilgili bazı hatalara asla yama uygulanmaz. Yonga üreticisi, hatanın ciddiyeti, sorunu düzeltmenin kolaylığı gibi faktörleri tartar ve hatta başka bir adım atmayı hak etmeye yetecek kadar hata varsa — bu önemsiz bir çaba değildir.
AMD neden daha önce bulamadı? 2.93 yıl, herhangi bir yeterlilik döngüsünden daha uzun. AMD EPYC Rome yongaları 2018’in sonlarında piyasaya sürüldü, bu nedenle AMD’nin bazı müşterileri bu sorunla karşılaşmış olabilir.
Şimdi, bu 2.93 yıllık çekirdek çökme hatası ilginç olsa da asıl soru, bunun gerçekten önemli olup olmadığıdır. Elbette, güvenlik güncellemeleri ve bakımına rağmen önemlidir. meli çok yapılacak, fazla daha kısa aralıklar
En gerçekçi senaryo, yeniden başlatmadan güncelleme yapmak için Linux canlı düzeltme eki özelliğini kullananlar olacaktır – bu kesinlikle hatayı tetikleyecek türden uzatılmış çalışma süresine yol açabilir. Ayrıca, görev açısından kritik uygulamalara yönelik sunucular genellikle uzun çalışma süresi görür.
Ve sonra sadece çalışma süresi kulübüne katılmak ve rekor kırmak isteyen insanlar var. Bunu yapmak için, yerleşik bilgisayarı yenmeniz gerekir. Voyager 2 uzay aracı. Evet, yıldızlararası uzaya giren ikinci kişi. Bu bilgisayar 16.735 gündür (48+ yıl) çalışıyor ve artmaya devam ediyor.
Karasal kayıtlar için 6.014 gün (16 yıl) gibi görünüyor. bir sunucu için kayıt, ancak taç için diğer yarışmacılar hakkında pek çok tartışma gördüm. (Küçük /r/uptimeporn/Reddit topluluğu, uzatılmış çalışma sürelerinin birçok örneğine sahiptir.)
Her iki durumda da, herhangi bir EPYC Rome yongasıyla bu tür bir rekor kıramayacaksınız — bu hatalar düzeltilmeyecek, bu nedenle tüm çekirdekleriniz 1.044 günlük eşiği çok fazla aşmayacaktır. herhangi bir koşul altında. Belki AMD, sorunun silikonda düzeltilemeyecek kadar maliyetli olduğuna karar verdi veya belki bir mikrokod/bellenim düzeltmesinin çok fazla performans yükü vardır veya belki de düzeltmeyi değerli kılacak kadar etkilenen müşteri yoktur.