Cloudflare’ın Tarihindeki En Büyük Kesinti ve Sebepleri
Bu hafta yaşanan Cloudflare kesintisi, son altı yılın en büyük problemi olarak kaydedildi. Şirket, veri tabanı erişim kontrollerinde yaşanan bir değişikliğin, küresel ağında zincirleme bir arızaya neden olduğunu duyurdu. Bu kesinti, pek çok web sitesi ve çevrimiçi platforma erişimi neredeyse altı saat süreyle engelledi.
Küresel Network ve Kritik Rolü
Cloudflare’ın küresel ağı, 120’den fazla ülkede bulunan sunucu ve veri merkezlerinden oluşan dağıtık bir altyapıdır. Bu ağ, içerik dağıtımı, güvenlik ve performans optimizasyonu gibi hizmetler sunarak, Cloudflare’ı 13,000’den fazla ağ ile, tüm büyük internet servis sağlayıcıları ve bulut sağlayıcılarıyla bağlamaktadır. Bu altyapı, internetin sinir merkezlerinden biri olarak kabul edilmektedir.
Kesintinin Sebepleri ve Süreci
CEO Matthew Prince, yaşanan aksaklıkların bir siber saldırı nedeniyle olmadığını, aksine veri tabanı sistemlerinden birinin izinlerinde yapılan bir değişikliğin, Bot Yönetim sistemiyle ilişkili “özellik dosyası”nın hatalı bir şekilde birden fazla girdi oluşturmasına neden olduğunu belirtti.
Kesinti, 11:28 UTC’de rutin bir veri tabanı izin güncellemesi ile başlamıştır. Bu güncelleme sonucunda, Cloudflare’ın Bot Yönetim sistemi hatalı olarak aşırı boyutlu bir yapılandırma dosyası oluşturmuş ve yazılımın çökmesine yani trafiğin yönlendirilmesinin aksamış olmasına yol açmıştır.
Aşırı Boyutlu Dosya Problemi
Veri tabanı sorgusu, izin değişikliklerinden sonra tekrar eden sütun meta verileri döndürerek yaklaşık 60 özellikten 200’den fazla özelliğe çıkarak dosyanın limitlerin aşmasına neden olmuştur. Bu durum, sistemin bellek tüketimini sınırlamak için tasarlanmış olan 200 özellik sınırını aşarak, sistemin kriz durumuna girmesine neden olmuştur.
Her beş dakikada bir güncellenen sorgular, hangi küme düğümlerinin güncelleneceğine bağlı olarak ya doğru ya da hatalı yapılandırma dosyaları oluşturmakta, bu da ağın ne zaman çalışıp ne zaman çalışmadığı arasında dalgalanmalara yol açmıştır. İleri düzeyde yazılım sorunları, 5xx hata kodlarını da beraberinde getirerek, trafiği yöneten ana proxy sisteminin çökmesine yol açmıştır.
Mühendislerin Hızı ve Sonuç
Cloudflare mühendisleri, sorunun temeline ulaşarak hatalı dosyayı daha önceki bir versiyonla değiştirmek için hızlıca harekete geçti. 14:30 UTC itibarıyla ana trafik normale dönerken, tüm sistemler 17:06 UTC’de tamamen operasyonel hale geldi. Bu kesinti, Cloudflare’ın temel CDN ve güvenlik hizmetlerinin yanı sıra Turnstile, Workers KV, kontrol paneli erişimi, e-posta güvenliği ve erişim kimlik doğrulaması gibi kritik hizmetlerini de etkiledi.
Matthew Prince, müşteri ve internet ekosistemi üzerindeki etkilerinden ötürü duyduğu üzüntüyü vurgulayarak, Cloudflare’ın öneminden ötürü herhangi bir kesintinin kabul edilemez olduğunu dile getirdi. “2019’dan bu yana yaşadığımız en büyük kesinti. Bu süre içinde birçok kesinti olsa da, core trafiğin durmasına neden olan bir durumla karşılaşmadık,” şeklinde konuştu.
Diğer Büyük Kesintilerle Karşılaştırma
Cloudflare, bu yıl Haziran ayında gerçekleşen ve Google Cloud altyapısını da etkileyen başka bir büyük kesintiyle de başa çıkmak zorunda kalmıştı. Ekim ayında ise Amazon’un sunucularında büyük bir DNSl eşleme hatası yaşanarak milyonlarca web sitesinin bağlantısı kesilmişti. Bu olaylar, internetin ne denli kritik ve hassas bir altyapıya sahip olduğunu bir kez daha gözler önüne seriyor.
Sonuç olarak, Cloudflare’ın yaşadığı bu kesinti, yalnızca şirketin değil, tüm internetin güvenilirliğini sorgulatan bir durum olarak tarihe geçti. Gelecekte benzer sorunların yaşanmaması için daha sağlam önlemlerin alınması gerektiği aşikar.


