Resim: Facebook’un Prineville, Oregon’daki veri merkezlerinden biri (Meta)
Sessiz veri bozulmasını tespit etmek için yıllarca farklı yaklaşımları test ettikten sonra Meta, donanım sorununu çözme yaklaşımını özetledi.
Sessiz bozulmalar, sistem günlüklerinde hiçbir kayıt veya iz bırakmayan veri hatalarıdır. Bu bozulmaların kaynakları, silikonla ilgili diğer faktörlerin yanı sıra veri yolu bağımlılıklarını, sıcaklık değişimlerini ve yaşı içerir. Bu veri hataları sessiz olduğundan, iş yüklerinde algılanmadan kalabilir ve birden çok hizmete yayılabilir.
Veri hatası, bilgisayarın belleğini, depolamasını, ağ iletişimini ve ayrıca bilgisayarın CPU’larını etkileyebilir ve veri kaybına neden olabilir.
Meta mühendisleri, bileşenler zaten üretim veri merkezi parklarından birine entegre edildikten sonra sessiz veri bozulmasını tespit etmekte zorlandıkları için üç yıl önce test etmeye başladılar. Meta’da bir mühendis olan Harish Dattatraya Dixit, “Sessiz bozulmaları tespit edip bunları büyük ölçekte azaltarak uygulama sağlığını ve filo direncini korumak için yeni algılama yaklaşımlarına ihtiyacımız vardı” dedi. Blog yazısı.
Kullanılan iki tür test
Testlerden Meta, en etkili yönteminin hem üretim dışı testleri hem de dalgalanma testini kullanmak olduğunu buldu.
Üretim dışı testler, makineler diğerlerinin yanı sıra sistem yeniden başlatma, çekirdek yükseltmeleri ve ana bilgisayar sağlama gibi bir bakım olayıyla karşılaştığında ortaya çıkan bir algılama yöntemidir. Bu tür testler, testlerin daha uzun yürütme sürelerine sahip olmasına izin vermek için bu olaylara dayanır ve “algılamanın daha müdahaleci doğasına” izin verir.
Dalgalanma testi, iş yükleri etkinken sessiz hata algılama gerçekleştirmeyi içerir. Bu, iş yükleri ile hayalet testi ve Meta’nın üretim dışı testlere kıyasla sessiz bozulmaların daha hızlı algılanmasına izin verdiğinin iddia ettiği gibi, filolara ve iş yüklerine aralıklı olarak beklenen sonuçlarla bit desenleri enjekte edilerek yapılır.
Bu tür daha hızlı testler, Meta’nın altyapısına kadar iner ve üretim dışı test yürütme sürelerinden 1.000 kat daha hızlı test süreleriyle sonuçlanır.
Meta, her iki yaklaşımın bir arada kullanılmasını önerir
Ancak Meta mühendisleri, dalgalanma testlerinin filo veri bozulmalarının yalnızca %70’ini tespit edebildiğini, ancak 15 gün içinde tespit edebildiklerini gözlemledi. Karşılaştırıldığında, üretim dışı testlerin aynı ve diğer bozulmaları tespit etmesi altı ay sürdü.
Bu artıları ve eksileri açıklayan Harish Dattatraya Dixit, büyük ölçekli altyapıya sahip kuruluşların sessiz veri bozulmasını tespit etmek için her iki yaklaşımı da kullanmasını tavsiye etti. Harish Dattatraya Dixit, “Her ikisini de büyük ölçekli bir parkta kullanmanızı ve dağıtmanızı öneririz” dedi.
“Sessiz veri bozulmasını algılamak büyük ölçekli altyapılar için zor bir sorun olsa da, yıllarca süren testler bize üretim dışı testlerin ve dalgalanma testinin, bozulmaları ölçekte mümkün olduğunca çabuk algılamak için orijinal bir çözüm sağlayabileceğini gösterdi. »
Meta mühendisleri, sessiz bozulmaları tespit etmek için her iki testi de kullandıklarında, hepsinin sonunda tespit edilebileceğini buldular. Meta’ya göre, bunların %70’i 15 gün sonra dalgalanma testi ile tespit edildi, üretim dışı testler altı ay içinde kalan sessiz bozulmaların %23’üne kadarını tespit ederken, kalan %7’si verilerinde tekrarlanan dalgalanma örnekleri ile tespit edildi. merkez parklar.
Bu tür bir sorunu tespit etmede yeniliği teşvik etmek için Meta, üniversitelere bu alanda araştırma önerileri oluşturmaları için her biri yaklaşık 50.000 $ değerinde beş hibe sunacağını da duyurdu.
Kaynak: ZDNet.com