AWS美东机房出事！冷却+供电崩了，EC2/EBS集体“掉线降级”，流量紧急转移

近日，AWS美东（北弗吉尼亚）US-EAST-1传出重大机房异常。根据AWS服务状态通报，use1-az4 这个可用区出现运行影响（impairment）：由于单一数据中心的供电与冷却系统异常，机房温度升高后，部分硬件在断电期间触发保护机制，进而导致EC2计算实例与EBS磁盘相关能力发生功能降级。更麻烦的是，EC2、EBS往往会牵连到依赖它们的其他云服务，因此影响范围被进一步放大。

从时间线看，AWS最初在太平洋夏令时间5月7日下午5点25分左右发出警示，点名use1-az4状态异常；随后在约半小时后补充细节，确认根因与数据中心环境过热、断电有关，并强调相关服务恢复仍需时间。到了5月7日晚6点47分的更新中，AWS表示团队正在把use1-az4的温度拉回正常水平，也已经暂停大部分服务流量，建议用户在短期内改用US-EAST-1其他可用区。然而，AWS也坦承：系统重建、资源重新配置（provisioning）所需的时间可能会比平时更长。

在更晚的阶段，AWS称冷却系统已逐步恢复，但恢复进度比预期慢。受影响可用区内的EC2、EBS及其他相关服务，错误率与延迟均出现上升。为降低用户体感风险，AWS进一步把大部分业务流量从use1-az4转移到其他可用区，并再次提醒用户尽快迁移。

截至5月7日晚10点11分（台北时间5月8日下午1点11分）的最新消息，AWS观察到部分初步修复迹象：通过启用额外的冷却容量，部分机架正在逐步恢复，团队同时继续推进更多机架的回温与复原工作。不过，是否完全恢复的准确时程仍未最终确认。

这次事件再次提醒企业：云基础设施虽具备冗余能力，但单点环境故障仍可能让“服务降级—连锁影响”发生在关键计算与存储层。对依赖美东US-EAST-1的用户而言，及时评估多可用区架构、准备故障切换策略，将是降低风险的关键。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Related Posts