全球停摆3小时!数据库故障引发应用崩盘,竟是因为一条DNS出了错

B站影视 电影资讯 2025-10-27 03:53 6

摘要:上周一,一场始于微小程序错误的亚马逊AWS云服务大规模故障,让全球范围内的热门应用和服务纷纷陷入瘫痪。从无法点餐、无法访问医院网络,到移动银行服务中断,再到智能家居和安防设备失效,这次停摆影响之广令人震惊。

上周一,一场始于微小程序错误的亚马逊AWS云服务大规模故障,让全球范围内的热门应用和服务纷纷陷入瘫痪。从无法点餐、无法访问医院网络,到移动银行服务中断,再到智能家居和安防设备失效,这次停摆影响之广令人震惊。

Netflix、星巴克、联合航空等多家国际巨头的在线服务也一度中断,数以百万计的用户受到波及。据亚马逊在周四发布的事后分析报告,这次大规模故障的根源,只是一条DNS记录的“竞态条件”问题:两套自动化系统试图同时更新同一条DNS记录,最终导致记录被覆盖为空,进而引发多条服务链条紊乱。

亚马逊声明中表示:“我们为此次事件对客户造成的影响深表歉意。我们清楚,此事件在多个层面上给客户带来了重大影响。我们将从中吸取经验教训,并进一步提升服务可用性。”

在网络世界中,DNS被视作互联网的“电话簿”,它负责将域名映射到具体的服务器地址。如果DNS出错,就相当于用户拿着电话簿找不到任何联系方式。思科ThousandEyes网络监测服务负责人Angelique Medina形象比喻:“电话簿还在,但你无法联系到任何人。”

伊利诺伊大学电气与计算机工程教授Indranil Gupta用课堂作业的例子解释了亚马逊的技术分析:假设两名学生合作记录实验笔记,一个快,一个慢。慢的学生以零散方式书写,而快的学生则可能快速修改或删除慢学生的内容以保持“最新”,最终导致笔记本出现空白页。正是这种“空白页”,让AWS的DynamoDB数据库瘫痪,形成连锁反应,进一步影响EC2虚拟服务器和网络负载均衡器(Network Load Balancer)等核心服务。

当DynamoDB恢复上线时,EC2尝试一次性重启所有服务器,却因压力过大无法承载,导致更多服务不可用。亚马逊已表示,将针对这次事件中暴露的“竞态条件”进行修复,并为EC2服务增加额外测试,以避免类似情况再次发生。

此次事件暴露了现代企业对云服务的高度依赖。从虚拟服务器、存储到开发者工具,众多企业的核心业务在云端运行。一旦云服务中断,线下运营和用户体验都会受到连锁冲击。Gupta教授指出,这类大规模停机虽然罕见,但不可避免,关键在于企业如何快速响应和透明沟通。“这种大规模故障就像人会生病一样,无法完全避免。但公司如何应对、如何及时告知客户,是决定影响程度的关键。”他在电话采访中强调。

此次故障后,亚马逊计划采取多项改进措施,包括修复DNS记录的竞态条件问题、为EC2增加测试套件,并优化数据库恢复与服务器重启策略。分析人士指出,这些措施虽不能保证绝对零故障,但至少能够降低连锁反应的风险。这次事件不仅提醒企业和用户,依赖云服务固然带来便利,但也必须建立风险预案和应急机制。

本文为深度编译,仅供交流学习,不代表本账号观点。

来源:小火论科技

相关推荐