全球停摆3小时！数据库故障引发应用崩盘，竟是因为一条DNS出了错

摘要：上周一，一场始于微小程序错误的亚马逊AWS云服务大规模故障，让全球范围内的热门应用和服务纷纷陷入瘫痪。从无法点餐、无法访问医院网络，到移动银行服务中断，再到智能家居和安防设备失效，这次停摆影响之广令人震惊。

上周一，一场始于微小程序错误的亚马逊AWS云服务大规模故障，让全球范围内的热门应用和服务纷纷陷入瘫痪。从无法点餐、无法访问医院网络，到移动银行服务中断，再到智能家居和安防设备失效，这次停摆影响之广令人震惊。

Netflix、星巴克、联合航空等多家国际巨头的在线服务也一度中断，数以百万计的用户受到波及。据亚马逊在周四发布的事后分析报告，这次大规模故障的根源，只是一条DNS记录的“竞态条件”问题：两套自动化系统试图同时更新同一条DNS记录，最终导致记录被覆盖为空，进而引发多条服务链条紊乱。

亚马逊声明中表示：“我们为此次事件对客户造成的影响深表歉意。我们清楚，此事件在多个层面上给客户带来了重大影响。我们将从中吸取经验教训，并进一步提升服务可用性。”

在网络世界中，DNS被视作互联网的“电话簿”，它负责将域名映射到具体的服务器地址。如果DNS出错，就相当于用户拿着电话簿找不到任何联系方式。思科ThousandEyes网络监测服务负责人Angelique Medina形象比喻：“电话簿还在，但你无法联系到任何人。”

伊利诺伊大学电气与计算机工程教授Indranil Gupta用课堂作业的例子解释了亚马逊的技术分析：假设两名学生合作记录实验笔记，一个快，一个慢。慢的学生以零散方式书写，而快的学生则可能快速修改或删除慢学生的内容以保持“最新”，最终导致笔记本出现空白页。正是这种“空白页”，让AWS的DynamoDB数据库瘫痪，形成连锁反应，进一步影响EC2虚拟服务器和网络负载均衡器（Network Load Balancer）等核心服务。

当DynamoDB恢复上线时，EC2尝试一次性重启所有服务器，却因压力过大无法承载，导致更多服务不可用。亚马逊已表示，将针对这次事件中暴露的“竞态条件”进行修复，并为EC2服务增加额外测试，以避免类似情况再次发生。

此次事件暴露了现代企业对云服务的高度依赖。从虚拟服务器、存储到开发者工具，众多企业的核心业务在云端运行。一旦云服务中断，线下运营和用户体验都会受到连锁冲击。Gupta教授指出，这类大规模停机虽然罕见，但不可避免，关键在于企业如何快速响应和透明沟通。“这种大规模故障就像人会生病一样，无法完全避免。但公司如何应对、如何及时告知客户，是决定影响程度的关键。”他在电话采访中强调。

此次故障后，亚马逊计划采取多项改进措施，包括修复DNS记录的竞态条件问题、为EC2增加测试套件，并优化数据库恢复与服务器重启策略。分析人士指出，这些措施虽不能保证绝对零故障，但至少能够降低连锁反应的风险。这次事件不仅提醒企业和用户，依赖云服务固然带来便利，但也必须建立风险预案和应急机制。

本文为深度编译，仅供交流学习，不代表本账号观点。

来源：小火论科技

标签： dns 数据库 ec2 崩盘竞态条件

本文地址：http://news.43b.com.cn/a/1673083.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!