一個常見的 Race Condition,為何能癱瘓 AWS 最大的 Region?
許多服務習慣將 JSON 設定檔 (Configuration) 存在 DynamoDB 這樣的 NoSQL 中,方便存取。但這也使其成為一個高度集中的依賴來源。
本簡報深入分析此一「單點故障」如何演變為�...
一個常見的 Race Condition,為何能癱瘓 AWS 最大的 Region?
許多服務習慣將 JSON 設定檔 (Configuration) 存在 DynamoDB 這樣的 NoSQL 中,方便存取。但這也使其成為一個高度集中的依賴來源。
本簡報深入分析此一「單點故障」如何演變為「連鎖效應」:
**起點:** DNS Enactor 的 Race Condition ,導致 DynamoDB DNS 紀錄被清空。 * **蔓延:** 依賴 DynamoDB 的服務(如 EC2)瞬間癱瘓,導致請求大量積壓。
**崩潰:** 故障擴散到 EC2 Droplet Workflow Manager,使其陷入無法自動恢復的「擁塞崩潰」(Congestive Collapse)
**瓶頸:** 連鎖效應甚至衝擊到 Network Manager,拖慢了後續的修復速度。
這不只是一份 AWS 當機報告,更是關於「並行控制」與「架構依賴」的SRE 深度案例分析。