我的一个客户的站点上周遭受了直接雷击(巧合的是13号星期五!)。
我当时在现场,但和现场的工作人员一起工作,我发现了一种奇怪的损坏模式。两个互联网链接都断了,大多数服务器都无法访问。大部分损坏发生在中密度纤维板,但一个光纤连接以色列国防军还丢失了交换机堆栈成员上 90% 的端口。有足够的备用交换机端口可用于将电缆重新分配到其他地方并重新编程,但在我们追踪受影响的设备时出现了停机时间。
这是一座新建筑/仓储设施,服务器机房的设计经过了大量规划。主服务器机房由APC SmartUPS RT 8000VA双转换在线 UPS,配有发电机。所有连接设备均有适当的电力分配。异地数据复制和系统备份已到位。
总的来说,我所知道的损失如下:
- 48 端口线卡发生故障思科 4507R-E 机箱交换机。
4 成员堆栈中的 Cisco 2960 交换机发生故障。(哎呀...堆栈电缆松动)- Cisco 2960 交换机上有几个不稳定的端口。
- HP ProLiant DL360 G7 主板和电源。
- 埃尔菲克WAN 链路平衡器。
- 一台 Multitech 传真调制解调器。
- WiMax/固定无线互联网天线和电源注入器。
- 众多 PoE 连接设备(VoIP 电话、Cisco Aironet 接入点、IP 安全摄像头)
大多数问题都与 Cisco 4507R-E 中整个交换机刀片的丢失有关。这包括部分 VMware NFS 网络和站点防火墙的上行链路。VMWare 主机发生故障,但一旦存储网络连接恢复,HA 便会负责虚拟机。我被迫重新启动/关闭多个设备的电源以清除异常的电源状态。因此恢复的时间很短,但我很好奇应该吸取什么教训......
- 将来应实施哪些额外的保护措施来保护设备?
- 我应该如何获得保修和更换?思科和惠普正在根据合同更换物品。昂贵的 Elfiq WAN 链路平衡器具有在他们的网站上发布简介基本上说“太糟糕了,使用网络电涌保护器“。(似乎他们预料到了这种失败)
- 我从事 IT 行业已经很长时间了,过去曾遭遇过雷暴破坏,但影响非常有限;例如廉价 PC 的网络接口或小型交换机的损坏。
- 我还能做些什么来检测可能不稳定的设备,还是我只需要等待奇怪的行为出现?
- 这一切是否只是运气不好,还是灾难恢复中真正应该考虑的事情?
有了足够的资金,就有可能在环境中建立各种冗余,但在这里,预防性/周到的设计和有效利用资源之间的合理平衡是什么?
答案1
几份工作之前,我工作的地方的一个数据中心位于一个非常大的天线下面一层。这个又大又薄的金属物体是该地区最高的东西,每隔 18 个月左右就会被雷击中一次。数据中心本身建于 1980 年左右,所以我不会称它为最现代化的东西,但他们在处理雷击损害方面有着丰富的经验(必须更换串行通信板每次,如果通信板所在的系统 10 年内没有制造任何新零件,那么这将是一次试验)。
老手们提出的一件事是,所有杂散电流都能找到绕过任何物体的路径,一旦桥接,就能在公共地面上传播。而且可以从气隙桥接。闪电是一种特殊情况,在这种情况下,正常的安全标准不足以防止电弧,它会传播到它有能量的地方。而且它的能量很大。如果有足够的能量,它可以从吊顶网格(也许其中一根吊线悬挂在一个与水泥中的建筑大梁相连的环上)到 2 柱机架的顶部,然后从那里进入网络设备。
就像黑客一样,你能做的事情非常有限。你的电源上都有断路器,可以钳制杂散电压,但你的低压网络设备几乎从来不会这样做,而且它们代表着极高能量电流的共同路径。
检测可能存在问题的装备是理论上我知道如何做到的,但实际上我却不知道。最好的办法可能是将可疑装备放入某个区域,并故意将房间温度升至操作范围的上限,然后看看会发生什么。进行一些测试,将其装满。将其放在那里几天。任何预先存在的电气损坏所产生的额外热应力可能会清除一些定时炸弹。
它确实缩短了某些设备的使用寿命,但找出哪些设备却很难。电源内的电源调节电路可能损坏了组件,并向服务器输送了脏电,只有通过使用专用设备设计用于测试电源。
除了在数据中心设施中安装 DC 外,我从未考虑过雷击问题屋顶上的巨大避雷针。一般来说,罢工是那些很少发生的事件之一,因此它被归为“天灾”而不再发生。
但是……你现在已经遇到过一次了。这表明你的设施至少有一次遇到了合适的条件。现在是时候评估一下你的设施在合适的条件下有多容易发生雷击,并制定相应的计划了。如果你现在只考虑雷击对灾难恢复的影响,我认为这是合适的。
答案2
自从最近它被编辑回头版顶部以来,我一直在思考这个问题。
我随意地规定,对于像 sysadmin1138 这样必须处理对 DC 屋顶的大型雷击极具吸引力的设施的人来说,针对大型雷击制定特定的应急计划是有意义的。但对于我们大多数人来说,这只是一次性的情况,我认为一个更适合我们其他人的答案可能会有一定价值。
可以想象各种电影情节威胁;这些情况肯定会发生,如果发生,无疑会破坏您的业务运营,但没有理由认为发生的可能性会更高。你知道这种事情;飞机撞击/闪电/附近油库发生爆炸/任何其他合理但存在背景风险的情景。
每一个都有可以实施的具体缓解计划,但我建议 - 模数我上面的规定 -这样做毫无商业意义。正如施奈尔在上述竞赛中试图指出的那样,仅仅因为你能想象到一些可怕的事情发生,并不意味着它就是一种威胁,需要专门的规划来应对,甚至是可取的。做制定良好的商业意识是一个通用的、有据可查的、经过测试的业务连续性计划。
您应该问自己,在不同的时间段内(例如 24 小时、96 小时、一周、一个月)完全瘫痪会给企业带来多少成本,并尝试量化每次发生的可能性。这必须是诚实的业务成本分析,并得到企业各个层面的认可。我曾经在一个站点工作过,那里普遍接受的停机时间数字是每小时 550 万英镑(那是 20 年前,当时 500 万英镑是一大笔钱);这个数字普遍被接受,很多决定非常更容易,因为它们只是简单的数学问题。
您的预算是预计损失乘以该损失的年概率;现在看看您可以采取哪些措施来减轻预算的威胁。
在某些情况下,这将运行在一个完整的备用数据中心,配备冷设备,随时准备 24x7 运行。这可能意味着一个小型备用数据中心,这样客户互动就可以继续,电话接线员的数量会大大减少,一个占位网站会发出中断警告。这可能意味着在您的主站点有第二个冗余路由的互联网连接,在需要之前处于冷状态。正如 Mark Henderson 上面提到的,这可能意味着保险(但保险要涵盖业务损失以及恢复的实际成本);如果您可以将 BC 预算花在一张纸上,该纸将在发生灾难时涵盖您所有预期的成本,那么购买这张纸可能是有意义的 - 但不要忘记考虑承销商失败纳入您的业务风险计划。这可能意味着将某些核心设备的维护合同升级为极其昂贵的四小时维修合同。只有您知道什么对您的业务有意义。
一旦你有了这个计划,你确实需要测试一下(可能保险除外)。我曾经在一个站点工作过,那里有一个完整的小型冷站点,随时可以切换,距离我们的主要设施有 45 分钟车程。当我们遇到导致核心网络关闭的问题时,我们最终尝试实时修复它,而不是切换到冷站点,然后然后修复核心并削减。切换失败的原因之一是我们不知道切换和削减需要多长时间。因此,在做出切换决定之前,没有人真正知道在没有切换的情况下应该允许运行多长时间,因此——可以理解——人们不愿意决定切换。14 小时后,我们重新上线后,领导们被解雇了;不是因为停电本身,而是因为已经花费了大量资金来建造一个用于缓解超过一天的停电影响的设施,而这个设施在停电期间却处于闲置状态。
最后一点,请注意,你的商业计划的外包部分是不是保证有效。你的高层管理人员可能坐在那里想着“如果我们把服务器放到云端,它们就会一直存在,我们就可以解雇系统管理员“。并非如此。 云可能会像其他任何东西一样失败;如果您将关键组件外包给供应商,那么您所做的就是剥夺了估计这些组件发生故障的可能性的能力。SLA 都很好,但除非它们有实质性的不履行惩罚措施,否则它们毫无意义 - 如果您的供应商可以只收取这笔钱并退还您不可用期间的服务费,那么他们为什么要花额外的钱来保持可用性?为了可靠,您的 SLA 需要附带惩罚措施,该惩罚措施应接近停机给您的业务造成的成本。是的,这将大大增加外包的成本;是的,这是完全可以预料到的。
答案3
最终还是要看你想花多少钱。我对此了解不够多,无法详细谈论,但我曾经去过一家大型制药公司的数据中心,那里遭到雷击,击穿了一个本来应该是多重冗余尖峰放电器的东西(设计正确,但实施错误,所以有些东西穿过了。)
您的 UPS 可以防止的最大峰值是多少?它应该有一个额定值。显然,雷击的直接程度足以超过这个值,或者 UPS 馈线周围有东西泄漏,例如接地不良。因此,也许您会检查您的电源设计,确定再次发生雷击的可能性,比较停机成本 X 可能性与补救措施,也许请电工对设施进行良好的调查,以确保一切都正确接地 - 以及一些快速阅读表明安全/规范接地不如防雷接地那么严格。
答案4
不确定这是否在上述任何一种情况下都已实现,但是……MDF 或 IDF 房间都不应有接地源,该接地源应连接到建筑物结构框架或设备接地电路。这包括配电盘、机架和所有设备外壳的电源。它们应该有一个所谓的干净接地,一直延伸到进入建筑物的电源的原始接地点。至于电弧通过露天闪烁,你只需拧紧螺丝即可。这些是要遵循的标准:ANSI/TIA-942、J-STD-607-A-2002 和 IEEE 1100 标准。希望有所帮助。