10月20日凌晨3点(美国东部时间)，亚马逊云服务(AWS)在美国东区1号主区域(位于弗吉尼亚州北部)发生大面积故障，该区域是其云服务的核心枢纽。

据故障监测网站Downdetector统计，用户报告显示亚马逊、Disney+、Lyft、麦当劳应用、纽约时报、Reddit、Robinhood、Snapchat、T-Mobile、美联航、Venmo、Verizon等平台均出现异常。

DesignRush对《财富》500强网站的快速DNS分析显示，约60%的企业依赖AWS边缘或DNS基础设施(如CloudFront和Route 53)。因此当某个AWS区域故障时，受影响的不仅是科技用户，更波及全球经济。

尽管AWS在凌晨发布修复方案，但互联网大面积瘫痪状态持续了一整天。

“我们已锁定影响AWS服务的网络连接问题根源，系负责监控网络负载均衡器健康状态的底层内部子系统故障所致。目前正限制新EC2实例启动请求以协助恢复，并积极实施缓解措施。”该公司通过AWS健康仪表板发布声明。

最终修复于美东时间下午6点完成，AWS将问题归因于DNS故障及内部子系统在DNS修复后仍未解决的异常。

去年曾发生类似故障：CrowdStrike发布错误更新导致数小时互联网中断，影响航空公司、POS系统乃至部分医疗服务。包裹追踪服务商Parcelhero消费者研究主管David Jinks指出，该事件造成《财富》500强企业损失54亿美元，全球众多企业遭受波及。

“企业已不再将此类事件视为孤立事件。若技术栈依赖单一区域或控制路径，便等同于设计了业务单点故障。几分钟的中断便会引发连锁反应：结账流程停滞、支付失败、广告停播、客服崩溃。如今所谓'生产就绪'的标准默认具备容错能力，这样一来，区域性事件对客户和现金流而言都将微不足道。”Cockroach Labs首席执行官兼联合创始人Spencer Kimball如是说。

据CNN报道，此次故障再次警示世人：即便中断时间短暂，互联网骨干网络仍极其脆弱，而全球对这些在线服务的依赖晨读之深。尽管AWS及其竞争对手通常运行稳健，但互联网本质上是由相互交织的服务构成的复杂网络，其可靠性取决于最薄弱的代码环节。

网络安全公司NymVPN首席数字官Rob Jardin,指出：“互联网最初设计为去中心化且具有弹性的架构，但如今我们的在线生态系统却高度集中于少数云区域。”

“类似故障几乎每年发生，这提醒我们软件供应链已变得多么庞大——AWS少数数据中心的简单问题就引发了数千家客户的连锁故障。受影响服务的客户在4小时内无法访问托管于AWS的资源和数据。” 网络安全媒体Cybernews高级安全研究员Aras Nazarovas指出，“此类可用性保障失败的后果因具体业务和行业而异，最坏情况下可能对关键基础设施领域造成严重后果。”

Solace公司总监兼杰出工程师Jamil Ahmed指出，云服务中断仅凸显了单一云部署的脆弱性，即便是谷歌、AWS(正如我们所见)和微软等最大云服务商也难免遭遇停机。

“将所有数字资产都放在一个云平台上，企业就会面临严重故障的风险，这点我们已经屡见不鲜。这些企业需要在其基础设施中构建容错机制——一种缓冲层，确保业务始终保持运行状态并能应对停机事件，这最终取决于工作负载如何转移并由另一家云服务商处理。”Ahmed解释道。“那些主动采用多云策略并借助事件驱动架构(EDA)进行防护的企业，已开始收获更强大、更具韧性的基础设施带来的红利。如今，更多企业可以效仿这一做法，释放多云未来的潜力。”

Vultr首席营销官Kevin Cochrane对此表示认同，他指出AWS此次故障再次暴露了当今云基础设施的脆弱性——全球流量过度集中于单一超大规模供应商乃至单一区域。若多云仅意味着与多家供应商签了合同，那是远远不够的。

“企业需要真正的基础设施弹性，确保当某云平台故障时，系统能在完全独立的云环境中持续运行。为保障业务连续性，企业必须采用分布式云战略——如同免疫系统般具备冗余性、自主性与永续性。”Cochrane总结道。

by Stephanie Simone

AWS大面积瘫痪波及互联网，再掀去中心化呼声