Cloudflare 中斷中斷了全球互聯網流量,問題在停機數小時後得到解決
Cloudflare 解決了周二發生的一次重大中斷,該中斷曾短暫中斷了大部分互聯網,導致主要網站暫時離線,並導致廣泛傳播“500 內部服務器錯誤”消息。
當 Cloudflare 承認影響其支持門戶的可用性問題時,中斷就開始了。 30 分鐘內,該公司發出警告稱,其全球網絡——覆蓋 330 多個城市和 120 多個國家的龐大基礎設施——正在經歷大範圍故障。
該公司表示:“Cloudflare 已經意識到並正在調查一個影響多個客戶的問題:廣泛存在的 500 錯誤,Cloudflare 儀表板和 API 也出現故障。我們正在努力了解全面影響並緩解這個問題。很快就會有更多更新。”
該網絡通過超過 449 Tbps 的全球邊緣容量以及與 13,000 多個網絡(包括主要 ISP、雲提供商、企業和在線平台)的直接鏈接提供內容交付、DDoS 防護和性能服務。
即使不是直接託管在 Cloudflare 上的平台(例如 Spotify、Twitter、OpenAI、AWS、英雄聯盟和 Google)也出現了錯誤報告的大幅增長,這表明主要服務通過依賴 Cloudflare 的基礎設施直接或間接受到影響。
例行更新遇到隱藏錯誤
Cloudflare 首席技術官 (CTO) Dane Knecht 很快就以直接且異常坦誠的方式解決了此次中斷問題關於 X 的聲明(以前稱為推特)。他道歉並解釋了出了什麼問題。
“我不會拐彎抹角:今天早些時候,@Cloudflare 網絡的問題影響了依賴我們的大量流量,我們讓我們的客戶和更廣泛的互聯網失望了。依賴 Cloudflare 的網站、企業和組織依賴於我們的可用性,我對我們造成的影響表示歉意,”Knecht 寫道。
“所發生事件的透明度很重要,我們計劃在幾個小時內分享更多詳細信息。簡而言之,在我們進行例行配置更改後,支撐我們的機器人緩解能力的服務中的一個潛在錯誤開始崩潰。這導致了我們的網絡和其他服務的廣泛退化。這不是攻擊。”
恢復階段
Cloudflare 的網絡在 UTC 時間 11:28 開始出現嚴重故障,無法傳輸核心網絡流量。世界標準時間 11:31,第一次自動測試檢測到該問題,並於世界標準時間 11:32 開始手動調查。事件呼叫於 UTC 時間 11:35 創建。到 UTC 14:30,主要影響得到解決,下游受影響的服務開始觀察到錯誤減少。
隨著工程師繼續進行補救工作,該公司承認分析、日誌和儀表板工具在下午仍然出現延遲。最後,在世界標準時間 17:06(中斷開始六小時後),Cloudflare 宣布所有下游服務已重新啟動,所有操作均已完全恢復。
“Cloudflare 服務目前運行正常。我們不再觀察到網絡中錯誤或延遲增加的情況,”該公司證實。
“我們的工程團隊繼續密切監控該平台,並對早期的中斷進行更深入的調查,但目前沒有進行任何配置更改。”
Knecht 強調,Cloudflare 正在調查這種潛在故障如何未被發現,並致力於長期改進以防止類似問題。
“客戶對我們的信任是我們最看重的,”他說。 “我們將盡一切努力來贏回這一點。”
閱讀更多:[100% 解決] 4 種無需更新即可恢復 iPhone 的解決方案
基礎設施故障日益嚴重
這一最新的破壞符合互聯網骨幹網令人擔憂的模式。今年早些時候,Cloudflare 處理了 6 月份的一次中斷,導致零信任 WARP 流量癱瘓,隨後 10 月份又發生了一次全面的 DNS 問題,導致數百萬個 AWS 託管網站癱瘓。
而且問題不僅限於 Cloudflare。就在上個月,AWS 和 Azure 也遭遇了嚴重中斷,這提醒用戶,最大的雲提供商儘管規模龐大,但仍遠非萬無一失。
這些事件共同揭示了當今互聯網的一個令人不安的事實:即使是像 Cloudflare 這樣的骨幹提供商內部的一個微小的內部錯誤也可能引發全球性的後果。
