您经历过的重大停电是什么？

Question 1

我几乎每天都会遇到“中断”（监控 44 个站点的 WAN 链接）。“小中断”是指持续时间少于 5 分钟的中断，大多数情况下“未引起注意”（出于某种原因，NOC 仅监控超过 5 分钟的中断）。我尝试与站点沟通，查看是否是内部问题，并在问题“未知”时检查路由器日志。

我发现沟通是处理停机的关键（这是轻描淡写！）。不要在排除故障或试图找出到底发生了什么时等待被叫。一定要告诉他们你知道他们出故障了，而且你正在努力解决。给他们一个时间框架，告诉他们你何时会回复他们，向他们通报情况更新（ETR）。不要让他们等着以为你忘记了他们，一定要让他们知道有人在处理他们的问题。你给他们打电话，这样他们就不必给你打电话了。

值得庆幸的是，在我负责的监控下，网站宕机的最长时间是 7 小时（工作日上午 10 点至下午 5 点）。如果不是所有相关方之间缺乏良好的沟通，宕机时间应该会缩短几个小时。基本上，问题没有得到妥善升级，而且由于假设“有人在处理”，这个问题（相对网站而言）花了很长时间才得到解决。

Answer

我几乎每天都会遇到“中断”（监控 44 个站点的 WAN 链接）。“小中断”是指持续时间少于 5 分钟的中断，大多数情况下“未引起注意”（出于某种原因，NOC 仅监控超过 5 分钟的中断）。我尝试与站点沟通，查看是否是内部问题，并在问题“未知”时检查路由器日志。

我发现沟通是处理停机的关键（这是轻描淡写！）。不要在排除故障或试图找出到底发生了什么时等待被叫。一定要告诉他们你知道他们出故障了，而且你正在努力解决。给他们一个时间框架，告诉他们你何时会回复他们，向他们通报情况更新（ETR）。不要让他们等着以为你忘记了他们，一定要让他们知道有人在处理他们的问题。你给他们打电话，这样他们就不必给你打电话了。

值得庆幸的是，在我负责的监控下，网站宕机的最长时间是 7 小时（工作日上午 10 点至下午 5 点）。如果不是所有相关方之间缺乏良好的沟通，宕机时间应该会缩短几个小时。基本上，问题没有得到妥善升级，而且由于假设“有人在处理”，这个问题（相对网站而言）花了很长时间才得到解决。

Question 2

我们数据中心的供暖蒸汽管道破裂了。非常热，到处都是冷凝水和石棉绝缘材料。清理期间断电数周。

好的，我的小组的内容是 BGP 配对的，在多个数据中心之间进行负载平衡。我们的部分用户在当前事务传输之前会经历 30 秒的冻结。许多其他项目的中断时间长达数天，每个人都加班加点地帮助其他人。

经验教训：首先做好连续性规划，然后建立系统来支持你的结论：

如果您无法忍受一周的停机时间，请规划并练习您的转移。不要使用主/故障转移站点，而是使用蓝色/金色站点并每两周轮换一次，以确保所有内容都已更新且可用。
如果您无法忍受半小时到一天左右的时间，请在活动站点之间进行负载平衡。与在压力下争分夺秒地进行恢复相比，您花在设置上的时间和精力会更少。
如果你不能容忍几分钟的停机时间，那么你需要付出很多努力才能实现真正的高可用性。最好的办法是聘请一位专家顾问。
只是为了完成层次结构，如果你不能容忍几秒钟的停机时间，你需要专门的硬件和专门的设计。你最好是专家

Answer

我们数据中心的供暖蒸汽管道破裂了。非常热，到处都是冷凝水和石棉绝缘材料。清理期间断电数周。

好的，我的小组的内容是 BGP 配对的，在多个数据中心之间进行负载平衡。我们的部分用户在当前事务传输之前会经历 30 秒的冻结。许多其他项目的中断时间长达数天，每个人都加班加点地帮助其他人。

经验教训：首先做好连续性规划，然后建立系统来支持你的结论：

如果您无法忍受一周的停机时间，请规划并练习您的转移。不要使用主/故障转移站点，而是使用蓝色/金色站点并每两周轮换一次，以确保所有内容都已更新且可用。
如果您无法忍受半小时到一天左右的时间，请在活动站点之间进行负载平衡。与在压力下争分夺秒地进行恢复相比，您花在设置上的时间和精力会更少。
如果你不能容忍几分钟的停机时间，那么你需要付出很多努力才能实现真正的高可用性。最好的办法是聘请一位专家顾问。
只是为了完成层次结构，如果你不能容忍几秒钟的停机时间，你需要专门的硬件和专门的设计。你最好是专家

Question 3

我当时正在参加一家公司的面试，这家公司有 50 多名用户，但目前正面临整个网络中断的问题。我在几分钟内就解决了这个问题，并见到了他们当前的系统管理员和他们打电话联系的 IT 支持公司，因为他无法解决这个问题 - 他们花了一上午的时间试图找出问题所在。

之前那个人安装了两个桥接模式的无线路由器，并将它们都接入有线网络。它们之间的距离很近，因此它们的网络形成了一个环路，随着接收信号的变化，环路会时断时续。

不用说，我得到了这份工作，并在开始工作后立即实施了一些变更管理日志记录。

Answer

我当时正在参加一家公司的面试，这家公司有 50 多名用户，但目前正面临整个网络中断的问题。我在几分钟内就解决了这个问题，并见到了他们当前的系统管理员和他们打电话联系的 IT 支持公司，因为他无法解决这个问题 - 他们花了一上午的时间试图找出问题所在。

之前那个人安装了两个桥接模式的无线路由器，并将它们都接入有线网络。它们之间的距离很近，因此它们的网络形成了一个环路，随着接收信号的变化，环路会时断时续。

不用说，我得到了这份工作，并在开始工作后立即实施了一些变更管理日志记录。

Question 4

可能最大的一次事故是由于重大网络升级导致的为期4天的总部网络中断。

我最大的建议是建立健全的事件管理流程。我看到 Velocity 2008 会议上有一个精彩的演讲，介绍了如何调整应急人员使用的通用事件指挥系统（http://en.wikipedia.org/wiki/Incident_Command_System）也适用于 IT 类事件：http://en.oreilly.com/velocity2008/public/schedule/detail/1525

在制定我们自己的内部“Sev1”事件处理流程时，我们大量借鉴了此原则。它强调沟通、统一指挥、明确责任交接等重要内容。

我还会为 Transparent Uptime 博客做个宣传：http://www.transparentuptime.com/- 它专注于在线服务，但他关于如何/什么中断沟通的一般规则也适用于内部 IT 事务。 http://www.transparentuptime.com/2010/03/guideline-for-postmortem-communication.html具体来说，我们让一位经理借鉴了这一点，并开始以这种格式发送信息，你不会相信会有如此积极的回应。

Answer

可能最大的一次事故是由于重大网络升级导致的为期4天的总部网络中断。

我最大的建议是建立健全的事件管理流程。我看到 Velocity 2008 会议上有一个精彩的演讲，介绍了如何调整应急人员使用的通用事件指挥系统（http://en.wikipedia.org/wiki/Incident_Command_System）也适用于 IT 类事件：http://en.oreilly.com/velocity2008/public/schedule/detail/1525

在制定我们自己的内部“Sev1”事件处理流程时，我们大量借鉴了此原则。它强调沟通、统一指挥、明确责任交接等重要内容。

我还会为 Transparent Uptime 博客做个宣传：http://www.transparentuptime.com/- 它专注于在线服务，但他关于如何/什么中断沟通的一般规则也适用于内部 IT 事务。 http://www.transparentuptime.com/2010/03/guideline-for-postmortem-communication.html具体来说，我们让一位经理借鉴了这一点，并开始以这种格式发送信息，你不会相信会有如此积极的回应。

您经历过的重大停电是什么？

答案1

答案2

答案3

答案4

相关内容