AWS美东机房出事!冷却+供电崩了,EC2/EBS集体“掉线降级”,流量紧急转移

62087622888649

近日,AWS美东(北弗吉尼亚)US-EAST-1传出重大机房异常。根据AWS服务状态通报,use1-az4 这个可用区出现运行影响(impairment):由于单一数据中心的供电与冷却系统异常,机房温度升高后,部分硬件在断电期间触发保护机制,进而导致EC2计算实例与EBS磁盘相关能力发生功能降级。更麻烦的是,EC2、EBS往往会牵连到依赖它们的其他云服务,因此影响范围被进一步放大。

从时间线看,AWS最初在太平洋夏令时间5月7日下午5点25分左右发出警示,点名use1-az4状态异常;随后在约半小时后补充细节,确认根因与数据中心环境过热、断电有关,并强调相关服务恢复仍需时间。到了5月7日晚6点47分的更新中,AWS表示团队正在把use1-az4的温度拉回正常水平,也已经暂停大部分服务流量,建议用户在短期内改用US-EAST-1其他可用区。然而,AWS也坦承:系统重建、资源重新配置(provisioning)所需的时间可能会比平时更长。

在更晚的阶段,AWS称冷却系统已逐步恢复,但恢复进度比预期慢。受影响可用区内的EC2、EBS及其他相关服务,错误率与延迟均出现上升。为降低用户体感风险,AWS进一步把大部分业务流量从use1-az4转移到其他可用区,并再次提醒用户尽快迁移。

截至5月7日晚10点11分(台北时间5月8日下午1点11分)的最新消息,AWS观察到部分初步修复迹象:通过启用额外的冷却容量,部分机架正在逐步恢复,团队同时继续推进更多机架的回温与复原工作。不过,是否完全恢复的准确时程仍未最终确认。

这次事件再次提醒企业:云基础设施虽具备冗余能力,但单点环境故障仍可能让“服务降级—连锁影响”发生在关键计算与存储层。对依赖美东US-EAST-1的用户而言,及时评估多可用区架构、准备故障切换策略,将是降低风险的关键。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注