摘要:Atlassian的Jira项目管理工具于1月18日遭遇大规模故障。服务从UTC时间6:52开始出现503不可用错误,并持续约四小时,影响了Jira Work Management、Jira Software、Jira Product Discovery等服务
云中断盘点
2024年,全球经历了多起重大云服务故障事件。以下是2024年最严重的海外云服务中断事件。
1月 Jira服务瘫痪
Atlassian的Jira项目管理工具于1月18日遭遇大规模故障。服务从UTC时间6:52开始出现503不可用错误,并持续约四小时,影响了Jira Work Management、Jira Software、Jira Product Discovery等服务。Atlassian解释称,这次故障源于内部数据库升级,导致服务响应超时,进而影响了整个Jira产品系列的正常运行。
2月 ATT中断引起FCC关注
2月22日,ATT电信公司遭遇大规模服务中断,超过340万用户报告无法访问互联网,问题持续超过12小时。ATT随后表示,问题源于错误的流程应用,并向受影响的用户提供了5美元的信用补偿。FCC发布报告指出,故障是由于缺乏同行评审和测试不足造成的,并对ATT采取了相应监管措施。此事件被评为2024年全球第三大中断事件。
2月 Google Cloud服务中断
2月14日,Google Cloud的us-west1区域由于元数据存储问题发生中断,影响了多项服务。Google称,问题持续了大约2小时40分钟,且通过隔离有问题的流量得到缓解。
CrowdStrike更新故障
CrowdStrike的更新问题是2024年最严重的故障事件之一。7月19日,CrowdStrike Falcon的更新导致850万台Windows设备“蓝屏死机”,造成了大范围的商业和社会混乱。该事件还引发了达美航空与CrowdStrike的法律纠纷,原因是因更新故障导致的航班取消。
7月微软中断故障
7月30日,微软Azure遭遇了Azure Front Door (AFD)和Azure Content Delivery Network (CDN)服务的中断。微软表示,故障源于DDoS攻击的缓解措施与站点断电未能按预期恢复,导致一部分网络功能出现故障。问题持续了约9小时,微软表示已采取措施避免类似事件再次发生。
9月 ATT与微软中断
9月12日,ATT用户在尝试访问Microsoft 365和Azure服务时出现问题。微软称,故障由第三方互联网服务提供商的事件引起,约持续90分钟。ThousandEyes指出,这次问题仅影响通过ATT连接到微软网络的用户。
ServiceNow中断故障
9月23日,ServiceNow平台发生了根证书更新失败的中断,导致约600名客户受到影响。此次故障提示我们,数字生态系统中每个环节的功能都对整体服务的可靠性至关重要。
9月 Verizon服务中断
9月30日,Verizon在美国发生大规模服务中断,导致纽约到洛杉矶的用户无法访问服务。Downdetector记录了超过170万份报告,影响了Verizon的广泛用户群。该问题持续约10小时,最终在晚上7:18得到解决。
10月 Salesforce中断故障
10月1日,Salesforce遭遇了全球范围内的服务中断。部分用户报告无法访问Salesforce服务,另一些用户登录后出现性能问题。Salesforce归咎于核心应用服务器启动问题,影响了部分功能的使用。
11月微软Outlook和Teams中断
11月26日,微软的Outlook和Teams服务发生中断,超过5000名用户报告遇到问题。微软将其归因于最近的配置变化,影响了服务的稳定性。
2024年云故障的影响
New Relic的报告显示,2024年因云服务中断,企业平均每年面临77小时的停机时间,每小时的损失可高达190万美元。这些故障不仅影响了企业的运营,还带来了巨大的收入和生产力损失。Cockroach Labs的调查也显示,84%的受访者表示因服务中断损失了至少10000美元。
随着云服务的普及和依赖,解决方案提供商应更加重视云服务的稳定性和应急响应机制,以减少故障带来的负面影响。
网罗圈内热点 专注网络安全
支持「安全圈」就点个三连吧!
来源:科技深观察