2003 年东北大停电

2003 年东北大停电

过去十年内,由于性能问题、瓶颈和可扩展性问题而发生的最严重的服务器中断/停机是什么?

两个这样的例子是持续存在的问题Twitter 已经一旦它流行起来,Google 停机时间2009年初。

您还知道哪些此类事件造成了巨大损失,影响了最多的用户?从这些事件中可以学到什么?这些公司如何公开回应他们的宕机事件?

答案1

2003 年东北大停电

2003 年东北大停电是 2003 年 8 月 14 日星期四下午 4:15 左右东部时间(UTC -5)发生的美国东北部和中西部地区以及加拿大安大略省部分地区发生的大规模停电事件。当时,这是历史上继 1999 年巴西南部大停电之后第二大规模的停电事件。[1][2]停电影响了安大略省约 1000 万人和美国八个州 4500 万人。

A软件错误通用电气能源公司基于 Unix 的 XA/21 能源管理系统中存在一种称为竞争条件的漏洞。该漏洞一旦触发,就会使 FirstEnergy 的控制室警报系统停滞一个多小时。系统操作员不知道故障发生;故障使他们无法收到系统状态重要变化的声音和视觉警报。[11][12][13] 警报系统发生故障后,未处理的事件排队等候,主服务器在 30 分钟内发生故障。然后,所有应用程序(包括停滞的警报系统)都自动转移到备用服务器,而备用服务器本身在 14:54 发生故障。服务器故障使操作员计算机控制台的屏幕刷新率从每屏 1-3 秒降低到 59 秒。由于没有警报,操作员拒绝接听美国电力公司关于俄亥俄州东北部一条 345 kV 共享线路跳闸和重合闸的电话。技术支持人员于 15:42 通知控制室人员警报系统发生故障。[14]

答案2

我的钱都花在亚马逊上了,2008 年 6 月 6 日。
大约太平洋标准时间上午 10:25,亚马逊零售网站无法访问。所有其他亚马逊服务器和服务均正常运行。此外,该网站的 https 访问可用。该
网站瘫痪了约 2 个小时。
据估计,亚马逊每分钟损失了 31,000 美元的潜在收入和大量信誉(亚马逊股票当天下跌了 2.7%)。据
推测,根本原因是负载平衡层中的定义有误,但亚马逊没有人会确认/否认。

答案3

2008 年,Amazon S3 和 EC2 服务曾出现过长达 3 小时的中断,影响了数千个网站,包括推特(存储),以及37 信号例如,据亚马逊称,这是由于可扩展性问题造成的(参考链接):

以下是我们今天早些时候遇到的问题的更多详细信息。今天凌晨 3:30(太平洋标准时间),我们开始发现我们其中一个地点的多个用户的经过身份验证的请求数量增加。虽然我们仔细监控了整体请求量,这些请求量保持在正常范围内,但我们没有监控经过身份验证的请求的比例。重要的是,这些加密请求每次调用消耗的资源比其他类型的请求更多。

太平洋标准时间凌晨 4:00 之前不久,我们开始看到其他几位用户显著增加了经过身份验证的呼叫量。在我们完成新容量的部署之前,这些用户将身份验证服务推到了最大容量之外。除了处理经过身份验证的请求之外,身份验证服务还会对 Amazon S3 处理的每个请求执行账户验证。这导致 Amazon S3 无法处理该位置的任何请求,从太平洋标准时间凌晨 4:31 开始。到太平洋标准时间凌晨 6:48,我们已将足够的容量转移到线上以解决该问题。

正如我们今天早些时候所说,尽管我们对过去两年这项服务的正常运行时间记录感到自豪,但任何停机时间都是不可接受的。作为此次事件事后分析的一部分,我们确定了一系列短期行动以及长期改进措施。我们将立即采取以下行动:(a) 改进对经过身份验证的请求比例的监控;(b) 进一步提高我们的身份验证服务容量;(c) 为经过身份验证的调用增加额外的防御措施。此外,我们已经开始开发服务健康仪表板,预计将很快发布。

谨致,亚马逊网络服务团队

答案4

几周前 TMobile Sidekick 数据丢失怎么样?

相关内容