图文详情

一、小白剧场

小白:东哥，你快来看看！我这篇关于“云计算弹性架构”的论文，怎么感觉越读越心虚呢？

大东:弹性架构不是讲究高可用、容灾备份，把风险降到最低吗？

小白:是啊，理论上是这样。书里写得天花乱坠，说云计算服务像钢铁侠的盔甲，坚不可摧。

大东:然后呢？是不是看到什么反例了？

小白:没错！我刚才瞥了一眼新闻，提到前不久亚马逊那个“史诗级”的宕机事件。

大东:噢，你说的是亚马逊AWS（Amazon Web Services）那次？持续了15个小时的那一回？

小白:对对对！新闻上说，那次宕机简直是“半个互联网都瘫了”，涉及上千万用户和企业。

大东: “半个互联网”这个形容虽然夸张，但确实体现了事件的严重性。看来，再坚固的盔甲，也怕“打喷嚏”啊。

小白:可不是嘛！我正在想，如果连亚马逊这种级别的巨头都会“感冒”，那我这篇论文的“坚不可摧”是不是有点站不住脚了？

大东:学术理论当然是理想状态，现实总是充满变数。来，别纠结你的论文了，我们聊聊这次事件，把理论和实际结合一下。

小白:好啊好啊！我正一肚子疑问呢。

大东:那我们就从头开始，剥茧抽丝地聊聊这次AWS的“世纪大宕机”。

二、话说事件

大东:小白，先说说你对云计算的理解，这次宕机为什么能造成这么大的影响？

小白:简单来说，现在全球很多网站、APP、甚至公司内部系统，都运行在少数几家大型云服务商的服务器上。

大东:没错。就像我们用电一样，网络基础设施现在也高度集中。亚马逊AWS就是其中最大的“供电商”之一。

小白:所以，一旦AWS出问题，就等于全球很大一部分网络世界的“电闸”被拉下来了。

大东:正是如此。这次宕机发生在美西时间10月20日下午，持续了超过15小时。影响范围之广，确实触目惊心。

小白:我看到新闻里列了一长串“受害者”名单，好多知名的网站和应用都在上面。

大东:是的，包括旗下的网站，还有像多邻国、Snapchat、Reddit、迪士尼+、Apple TV、Roblox，甚至Steam、PlayStation、Xbox这些游戏平台。

小白:连打游戏都受影响了，这简直是“世界末日”级别的灾难啊！（开玩笑地）

大东:不只是娱乐。更要命的是金融和支付行业，像Robinhood、Coinbase这些，影响了数百万用户的日常交易，那是真金白银的事。

小白:天呐，金融交易停滞，那损失可就大了去了。

大东:更夸张的是，航空领域都未能幸免。有报道说，一些航班因为网络服务中断，连正常停靠都受影响，只能在原地等待。

小白:飞机停不了？这都快影响到现实世界的基础运行了！

大东:所以业内才会用“半个互联网都陷入不可用状态”来形容。这已经不是简单的网站打不开，而是现代社会基础设施的脆弱性暴露无遗。

小白:那，宕机的根源到底是什么呢？亚马逊官方是怎么说的？

大东:官方指出，故障发生在他们位于弗吉尼亚州北部的US-EAST-1数据中心区域。

小白:US-EAST-1？这个名字听起来就很重要。

大东:确实。它是AWS运营历史最久、规模最大、最繁忙的数据中心集群。许多全球性的应用程序和网站都托管在这里。

小白:为什么偏偏是它出问题？是黑客攻击吗？

大东:官方解释是与“DynamoDB API的DNS解析”有关。简单来说，就是系统无法正确找到一个名为DynamoDB的关键数据库服务的网络地址。

小白:DNS解析失败？听起来像一个很低级的错误，但却引发了全球性的崩溃？

大东:这就是问题的核心。它不是一次黑客攻击，而更像是某个系统内部的监控子系统故障。这个故障连锁反应，导致了大规模的崩溃。

小白:一个小小的“网络连接问题”或“DNS解析失败”，就能让全球瘫痪15小时，这背后是不是意味着系统的过度耦合和单点风险？

大东:你说到了点子上。虽然AWS拥有完善的应急流程，本应在数小时内恢复。但这次的问题在于，这个监控子系统的故障，导致了超出预期的连锁效应。

小白:专家怎么看这次事件呢？

大东:专家指出，这次事故再次暴露了现代社会的脆弱现实。我们过度依赖少数几家大型云服务商，一旦其中一家出现哪怕是内部的“小故障”，都会在全球范围内造成巨大混乱。

小白:听起来，我们现在的生活，比想象中要悬得多啊。

大东:没错，互联网已经成为像水电一样的基础设施，它不应该是脆弱的。但这次事件告诉我们，风险管理永远在路上。

小白:明白了。

三、大话始末

大东:小白，你刚才提到了“系统的过度耦合”和“单点风险”，这正是我们进入“大话始末”的关键。

小白:是的，在AI安全和数字安全时代，这种大面积的宕机，已经不是第一次发生，但这次似乎是最严重的一次。

大东:你说得对。这次事件再次提醒我们，如何构建真正健壮、具有韧性的数字基础设施。我们来看看历史上几个类似的事件，也许能从中找到答案。

小白:好奇心完全被勾起来了！

大东:首先，我们不能忘了2017年AWS US-EAST-1的那次事件。当时也是因为输入错误命令，导致部分存储服务瘫痪，很多网站受到影响。

小白:又是US-EAST-1！这个数据中心真是“多事之地”。

大东:是的，这次已经是过去五年中，该区域至少第三次引发大规模互联网瘫痪了。这说明，核心枢纽的风险控制需要持续优化。

小白:那其他巨头有没有类似的问题？

大东:当然有。例如，2021年，Facebook（Meta）就经历了一次全球性的服务中断。那次是因为配置错误，导致自家所有服务，包括WhatsApp、Instagram全部下线了数小时。

小白:哇，那次也很轰动，整个社交媒体世界都安静了。

大东:还有，谷歌云（Google Cloud）也曾因网络问题导致服务中断，波及了Gmail、YouTube等众多用户。它们虽然恢复得快，但同样说明了集中化架构的固有风险。

小白:所以，问题的核心在于，这些系统都太大、太集中，导致牵一发而动全身。

大东:正确！我们甚至可以回顾更早的事件，比如Akamai作为全球领先的内容分发网络（CDN），也曾发生过全球性服务故障。

小白:那次我记得，很多媒体和电商网站都访问不了。

大东:对，那是由于软件更新中的一个配置缺陷，引发了连锁反应。这告诉我们，软件迭代和配置管理也是安全的关键环节。

小白:看来，无论是底层基础设施还是上层应用，都存在着巨大的不确定性。

大东:那么，面对这次AWS的长时间宕机，我们应该如何预防和应对呢？

小白:我觉得第一步应该是多区域部署，不要把鸡蛋放在一个篮子里。

大东:这是最直接的。企业应该采取跨区域部署，甚至更高级的多云战略，同时使用亚马逊、谷歌、微软等不同的云服务商，来分散风险。

小白:这样就算一个云服务商“打喷嚏”，其他的还能顶住。

大东:第二点，加强对DNS解析和核心数据库的容错设计。不能让一个底层的小故障，导致整个系统瘫痪。

小白:也就是说，要给关键组件多加几层“保险丝”和“备用开关”。

大东:第三，从云服务商的角度来说，需要对US-EAST-1这种历史悠久、高风险的集群进行彻底的架构审查和隔离优化。

小白:要找出那个“屡次犯错”的根源，彻底解决它。

大东:第四，对于依赖云服务的企业，必须制定详细的灾难恢复（DR）计划。包括定期演练，确保在危机时刻能够快速切换到备用系统或区域。

小白:灾难恢复计划，是把主动权掌握在自己手中的关键。

大东:最后一点，也是最容易被忽视的，是配置管理和变更控制。很多大事故都是由“人”的小小失误引起的。

小白:对，就像Facebook那次，一个配置错误就能让全球服务中断。

大东:所以，严格的配置审核、自动化部署和回滚机制，是防止此类事件再次发生的有效手段。

小白:听你这么一分析，这次事件不仅仅是一次技术故障，更是对全球数字基础设施韧性的一次大考。

大东:是的，在AI和数字安全时代，这种大宕机敲响的警钟，比以往任何时候都更加响亮。

四、小白内心说

小白:啊，这次和大东哥聊完亚马逊的“世纪大宕机”，我这心里真是不平静。以前总觉得，像AWS这种级别的云计算巨头，他们的系统是坚不可摧的堡垒。现在才知道，一个DNS解析的小故障，就能像多米诺骨牌一样，让半个互联网瘫痪15个小时。这太可怕了，金融交易、航空管制、日常娱乐，竟然都悬系于一个弗吉尼亚州的数据中心。这不只是技术问题，更是社会基础设施的脆弱性。未来，数字安全和AI安全的核心，不再是单纯地防范外部黑客，更是要构建内在的系统韧性和快速恢复的能力。

来源: CCF科普

亚马逊打个喷嚏，半个互联网都感冒了 | 大东话安全

科普中国系列品牌网站

入驻科普号

合作机构