2 Kasım 2023’te müşteri arayüzleri Bulut parlamasıWeb siteleri ve API’lerin yanı sıra günlükler ve analiz araçları da dahil olmak üzere , düzgün çalışmayı durdurdu. Bu açıkça gerçek bir sorundu.


7,5 milyondan fazla web sitesi Cloudflare kullanıyorve dünyanın en popüler 10.000 web sitesinden 3.280’i İçerik Dağıtım Ağı (CDN) hizmetlerine güveniyor. İyi haber şu ki CDN başarısız olmadı. Kötü haber şu ki Cloudflare Dashboard ve uygulama programlama arayüzleri (API’ler) neredeyse iki gün boyunca ulaşılamadı.

Bu tür bir şey büyük internet hizmet şirketlerinin başına gelmez veya en azından gelmemesi gerekir. Milyonlarca avroluk soru şu: “Ne oldu?”

Şirketin üç ana veri merkezinden birinde elektrik kazası meydana geldi

Cloudflare CEO’su Matthew Prince’e göre cevap, şirketin Oregon’daki (Amerika Birleşik Devletleri) üç ana veri merkezinden birinde meydana gelen bir elektrik kazasıydı. Esnekve bu da birbirini takip eden sorunların ortaya çıkmasına neden oldu. Otuz altı saat sonra Cloudflare hizmetleri nihayet normale döndü.

Prince sorunu açıklamak için elinden geleni yaptı:

Öncelikle bunun asla olmaması gerekirdi. Büyük veri merkezi sağlayıcılarımızdan biri felaketle sonuçlanabilecek bir arıza yaşadığında bile bu tür bir kesintiyi önleyecek yüksek kullanılabilirliğe sahip sistemlerimiz olduğuna inanıyorduk. Her ne kadar pek çok sistem beklendiği gibi çevrimiçi kalsa da, bazı kritik sistemlerde, onları kullanılamaz hale getiren belirgin olmayan bağımlılıklar vardı. Bu olaydan ve bunun müşterilerimize ve ekibimize yaşattığı zorluktan dolayı üzgünüm ve utanıyorum.

O haklı. Bu olayın asla yaşanmaması gerekirdi. Cloudflare’in kontrol düzlemi ve analiz sistemleri, Hillsboro, Oregon çevresindeki üç veri merkezinde bulunan sunucularda çalışır. Ama hepsi birbirinden bağımsız. Her birinin birden fazla yedekli ve bağımsız güç kaynağı ve İnternet bağlantısı vardır.

Talihsizlik! Flexential, güç kaynağını desteklemek için jeneratörlerini açtı

Üç veri merkezi, doğal bir felaketin hepsinin birden çökmesine neden olmayacağı kadar birbirinden yeterince uzakta. Aynı zamanda aktif, yedekli veri kümelerinden yararlanabilecek kadar da yakındırlar. Yani tasarım gereği tesislerden biri arızalanırsa diğerleri yükü devralmalı ve çalışmaya devam etmelidir.

Kulağa harika geliyor, değil mi? Ama olan bu değil.

İlk olarak Flexential’ın tesisindeki elektrik kesintisi beklenmedik bir hizmet kesintisine neden oldu. Portland General Electric (PGE), binanın bağımsız güç kaynaklarından birini kesmek zorunda kaldı. Ancak veri merkezi, tesise güç sağlayan, belirli düzeyde bağımsızlığa sahip birden fazla güç kaynağına sahiptir. Ancak Flexential, kesilen elektriği tamamlamak için jeneratörlerini çalıştırdı.

Veri merkezinin en iyi uygulamalarına aşina olmayanlar için bu yaklaşımdan kaçınılmalıdır.

Saha dışı enerji ve jeneratörleri aynı anda kullanmıyoruz. Daha da kötüsü Flexential, Cloudflare’e bir şekilde jeneratör gücüne geçtiğini söylemedi.

Bağlantıyı ve tüm jeneratörleri kesen 12.470 voltluk bir akım

Daha sonra veri merkezine güç sağlayan PGE transformatöründe toprak arızası oluştu. Ve toprak arızası dediğimde, sigortayı tamir etmek için sizi bodruma inmeye zorlayan türden bir kısa devreden bahsetmiyorum. Bu cümleyi okumanızdan daha kısa bir sürede bağlantıyı ve tüm jeneratörleri devre dışı bırakan 12.470 volttan bahsediyorum.

Teorik olarak, invertörlerin sunucuları 10 dakika boyunca çalışır durumda tutması gerekiyordu, bu da jeneratörlerin tekrar çalışır duruma gelmesi için yeterli olurdu. Bunun yerine, invertörler yaklaşık dört dakika sonra ölmeye başladı ve jeneratörler zaten asla zamanında çalıştırılamayacaktı.

Hata!

Tek personel olarak bir hafta boyunca bir teknisyen iş başında

Belki de kimse başa çıkamadı. Ancak sitede gece nöbetçisi personeli “güvenlik ve yalnızca bir haftadır işte olan refakatsiz bir teknisyenden oluşuyordu.” Kısacası durum umutsuzdu.

Bu arada Cloudflare, bazı kritik sistem ve hizmetlerin henüz yüksek kullanılabilirlik kurulumuna entegre edilmediğini zor yoldan keşfetti. Ayrıca Cloudflare’in tarama sürelerinin kabul edilebilir olması nedeniyle günlük sistemlerini yüksek kullanılabilirliğe sahip kümeye entegre etmeme kararının bir hata olduğu ortaya çıktı. Ne için ? Çünkü Cloudflare personeli neyin yanlış olduğunu anlamak için günlüklere bakamadı. Böylece kesinti devam etti.

Ve üç veri merkezi “çoğunlukla” yedekli olsa da tamamen yedekli değildi. Bölgenin diğer iki veri merkezi yüksek kullanılabilirlik kümesini destekledi ve kritik hizmetleri çevrimiçi tuttu.

Yüksek kullanılabilirliğin avantajları ve dezavantajları

Şimdiye kadar, çok iyi. Ancak yüksek kullanılabilirlik kümesinde olması gereken hizmetlerin bir alt kümesi, yalnızca yeni ölen veri merkezinde çalışan hizmetlere bağlıydı.

Özellikle, günlükleri işleyen ve Cloudflare’in analitiğini güçlendiren iki kritik hizmet: Kafka’nın Ve ClickHouse – yalnızca çevrimdışı veri merkezinde mevcuttu. Dolayısıyla HA küme hizmetleri Kafka ve Clickhouse’u aradığında yanıt alamadılar.

Cloudflare itiraf ediyor “çok gevşekti ve yeni ürünlerin ve bunlarla ilişkili veritabanlarının yüksek kullanılabilirlik kümesine entegre edilmesini gerektirmesi gerekirdi”. Üstelik hizmetlerinin büyük bir kısmı temel tesislerin mevcudiyetine bağlıdır.

Merkezi sistemine bağlı kalan dağıtık sistemlerin kralı

Birçok şirket bunu yapıyor ancak Prens itiraf ediyor Bu durum “Cloudflare’in lehine çalışmıyor. Dağıtılmış sistemlerde iyiyiz. Bu olay boyunca küresel ağımız beklendiği gibi çalışmaya devam etti ancak çekirdeğin mevcut olmaması durumunda çok fazla sistem başarısız oluyor. Dağıtılmış sistemler ürünlerini kullanmamız gerekiyor.” Merkezi tesislerimizde kesinti olsa bile neredeyse normal şekilde çalışmaya devam edebilmeleri için tüm hizmetlerimizi tüm müşterilerimizin kullanımına sunuyoruz.”

Birkaç saat sonra nihayet her şey normale döndü. Ve bu kolay değildi. Örneğin devre kesicilerin neredeyse tamamı patlamıştı ve Flexentail bunları değiştirmek için yenilerini satın almak zorunda kaldı.

Birkaç güç dalgalanması olacağını tahmin eden Cloudflare ayrıca “tek güvenli kurtarma işleminin tüm kurulumun tamamen yeniden başlatılması olduğuna” karar verdi. Bu yaklaşım, tüm sunucuların yeniden inşa edilmesini ve yeniden başlatılmasını gerektiriyordu; bu da saatler sürdü.

4 Kasım’a kadar süren olay nihayet çözümlendi. İleriye dönük olarak Bay Prince şu sonuca vardı: “Veri merkezi sağlayıcımızda gördüğümüz ardışık kesintilere bile dayanabilecek doğru sistem ve prosedürlere sahibiz, ancak bu sistemleri ve prosedürleri uygularken daha titiz olmamız gerekiyor ve bunları bilinmeyen bağımlılıklar açısından test etmek. Bu konu, yıl sonuna kadar benim ve ekibimizin büyük bir kısmının tüm dikkatini koruyacak. Ve son iki günün zorluğu bizi daha iyi hale getirecek.”


Kaynak : “ZDNet.com”



genel-15