评估雷击后的设备损坏——我应该做更多计划吗？

Question 1

几份工作之前，我工作的地方的一个数据中心位于一个非常大的天线下面一层。这个又大又薄的金属物体是该地区最高的东西，每隔 18 个月左右就会被雷击中一次。数据中心本身建于 1980 年左右，所以我不会称它为最现代化的东西，但他们在处理雷击损害方面有着丰富的经验（必须更换串行通信板每次，如果通信板所在的系统 10 年内没有制造任何新零件，那么这将是一次试验）。

老手们提出的一件事是，所有杂散电流都能找到绕过任何物体的路径，一旦桥接，就能在公共地面上传播。而且可以从气隙桥接。闪电是一种特殊情况，在这种情况下，正常的安全标准不足以防止电弧，它会传播到它有能量的地方。而且它的能量很大。如果有足够的能量，它可以从吊顶网格（也许其中一根吊线悬挂在一个与水泥中的建筑大梁相连的环上）到 2 柱机架的顶部，然后从那里进入网络设备。

就像黑客一样，你能做的事情非常有限。你的电源上都有断路器，可以钳制杂散电压，但你的低压网络设备几乎从来不会这样做，而且它们代表着极高能量电流的共同路径。

检测可能存在问题的装备是理论上我知道如何做到的，但实际上我却不知道。最好的办法可能是将可疑装备放入某个区域，并故意将房间温度升至操作范围的上限，然后看看会发生什么。进行一些测试，将其装满。将其放在那里几天。任何预先存在的电气损坏所产生的额外热应力可能会清除一些定时炸弹。

它确实缩短了某些设备的使用寿命，但找出哪些设备却很难。电源内的电源调节电路可能损坏了组件，并向服务器输送了脏电，只有通过使用专用设备设计用于测试电源。

除了在数据中心设施中安装 DC 外，我从未考虑过雷击问题屋顶上的巨大避雷针。一般来说，罢工是那些很少发生的事件之一，因此它被归为“天灾”而不再发生。

但是……你现在已经遇到过一次了。这表明你的设施至少有一次遇到了合适的条件。现在是时候评估一下你的设施在合适的条件下有多容易发生雷击，并制定相应的计划了。如果你现在只考虑雷击对灾难恢复的影响，我认为这是合适的。

Answer

几份工作之前，我工作的地方的一个数据中心位于一个非常大的天线下面一层。这个又大又薄的金属物体是该地区最高的东西，每隔 18 个月左右就会被雷击中一次。数据中心本身建于 1980 年左右，所以我不会称它为最现代化的东西，但他们在处理雷击损害方面有着丰富的经验（必须更换串行通信板每次，如果通信板所在的系统 10 年内没有制造任何新零件，那么这将是一次试验）。

老手们提出的一件事是，所有杂散电流都能找到绕过任何物体的路径，一旦桥接，就能在公共地面上传播。而且可以从气隙桥接。闪电是一种特殊情况，在这种情况下，正常的安全标准不足以防止电弧，它会传播到它有能量的地方。而且它的能量很大。如果有足够的能量，它可以从吊顶网格（也许其中一根吊线悬挂在一个与水泥中的建筑大梁相连的环上）到 2 柱机架的顶部，然后从那里进入网络设备。

就像黑客一样，你能做的事情非常有限。你的电源上都有断路器，可以钳制杂散电压，但你的低压网络设备几乎从来不会这样做，而且它们代表着极高能量电流的共同路径。

检测可能存在问题的装备是理论上我知道如何做到的，但实际上我却不知道。最好的办法可能是将可疑装备放入某个区域，并故意将房间温度升至操作范围的上限，然后看看会发生什么。进行一些测试，将其装满。将其放在那里几天。任何预先存在的电气损坏所产生的额外热应力可能会清除一些定时炸弹。

它确实缩短了某些设备的使用寿命，但找出哪些设备却很难。电源内的电源调节电路可能损坏了组件，并向服务器输送了脏电，只有通过使用专用设备设计用于测试电源。

除了在数据中心设施中安装 DC 外，我从未考虑过雷击问题屋顶上的巨大避雷针。一般来说，罢工是那些很少发生的事件之一，因此它被归为“天灾”而不再发生。

但是……你现在已经遇到过一次了。这表明你的设施至少有一次遇到了合适的条件。现在是时候评估一下你的设施在合适的条件下有多容易发生雷击，并制定相应的计划了。如果你现在只考虑雷击对灾难恢复的影响，我认为这是合适的。

Question 2

自从最近它被编辑回头版顶部以来，我一直在思考这个问题。

我随意地规定，对于像 sysadmin1138 这样必须处理对 DC 屋顶的大型雷击极具吸引力的设施的人来说，针对大型雷击制定特定的应急计划是有意义的。但对于我们大多数人来说，这只是一次性的情况，我认为一个更适合我们其他人的答案可能会有一定价值。

可以想象各种电影情节威胁；这些情况肯定会发生，如果发生，无疑会破坏您的业务运营，但没有理由认为发生的可能性会更高。你知道这种事情；飞机撞击/闪电/附近油库发生爆炸/任何其他合理但存在背景风险的情景。

每一个都有可以实施的具体缓解计划，但我建议 - 模数我上面的规定 -这样做毫无商业意义。正如施奈尔在上述竞赛中试图指出的那样，仅仅因为你能想象到一些可怕的事情发生，并不意味着它就是一种威胁，需要专门的规划来应对，甚至是可取的。做制定良好的商业意识是一个通用的、有据可查的、经过测试的业务连续性计划。

您应该问自己，在不同的时间段内（例如 24 小时、96 小时、一周、一个月）完全瘫痪会给企业带来多少成本，并尝试量化每次发生的可能性。这必须是诚实的业务成本分析，并得到企业各个层面的认可。我曾经在一个站点工作过，那里普遍接受的停机时间数字是每小时 550 万英镑（那是 20 年前，当时 500 万英镑是一大笔钱）；这个数字普遍被接受，很多决定非常更容易，因为它们只是简单的数学问题。

您的预算是预计损失乘以该损失的年概率；现在看看您可以采取哪些措施来减轻预算的威胁。

在某些情况下，这将运行在一个完整的备用数据中心，配备冷设备，随时准备 24x7 运行。这可能意味着一个小型备用数据中心，这样客户互动就可以继续，电话接线员的数量会大大减少，一个占位网站会发出中断警告。这可能意味着在您的主站点有第二个冗余路由的互联网连接，在需要之前处于冷状态。正如 Mark Henderson 上面提到的，这可能意味着保险（但保险要涵盖业务损失以及恢复的实际成本）；如果您可以将 BC 预算花在一张纸上，该纸将在发生灾难时涵盖您所有预期的成本，那么购买这张纸可能是有意义的 - 但不要忘记考虑承销商失败纳入您的业务风险计划。这可能意味着将某些核心设备的维护合同升级为极其昂贵的四小时维修合同。只有您知道什么对您的业务有意义。

一旦你有了这个计划，你确实需要测试一下（可能保险除外）。我曾经在一个站点工作过，那里有一个完整的小型冷站点，随时可以切换，距离我们的主要设施有 45 分钟车程。当我们遇到导致核心网络关闭的问题时，我们最终尝试实时修复它，而不是切换到冷站点，然后然后修复核心并削减。切换失败的原因之一是我们不知道切换和削减需要多长时间。因此，在做出切换决定之前，没有人真正知道在没有切换的情况下应该允许运行多长时间，因此——可以理解——人们不愿意决定切换。14 小时后，我们重新上线后，领导们被解雇了；不是因为停电本身，而是因为已经花费了大量资金来建造一个用于缓解超过一天的停电影响的设施，而这个设施在停电期间却处于闲置状态。

最后一点，请注意，你的商业计划的外包部分是不是保证有效。你的高层管理人员可能坐在那里想着“如果我们把服务器放到云端，它们就会一直存在，我们就可以解雇系统管理员“。并非如此。云可能会像其他任何东西一样失败；如果您将关键组件外包给供应商，那么您所做的就是剥夺了估计这些组件发生故障的可能性的能力。SLA 都很好，但除非它们有实质性的不履行惩罚措施，否则它们毫无意义 - 如果您的供应商可以只收取这笔钱并退还您不可用期间的服务费，那么他们为什么要花额外的钱来保持可用性？为了可靠，您的 SLA 需要附带惩罚措施，该惩罚措施应接近停机给您的业务造成的成本。是的，这将大大增加外包的成本；是的，这是完全可以预料到的。

Answer