前几天,我们注意到服务器机房里飘出一股难闻的烧焦味。长话短说,原来是 UPS 单元中的一个电池模块烧坏了,但我们花了好几个小时才弄明白。我们之所以能弄明白,主要原因是 UPS 显示屏最终显示需要更换模块。
问题就在这里:整个房间都充满了气味。进行嗅探测试非常困难,因为气味已经渗透到所有地方(更不用说它让我们头晕目眩)。我们差点错误地关闭了我们的生产数据库服务器,因为那里的气味最浓。重要部件似乎没问题(CPU 温度显示 60 摄氏度,风扇速度正常),但我们不确定。碰巧的是,烧毁的电池模块与机架上的服务器高度大致相同,距离只有 3 英尺。如果这是真正的紧急情况,我们就会惨败。
实际上,实际服务器硬件烧毁的可能性相当小,大多数情况下我们会将 UPS 视为罪魁祸首。但是,如果机架上有多个设备,那么很快就会变成一场猜谜游戏。如何快速准确地确定哪台设备实际上正在燃烧?我意识到这个问题高度依赖于环境变量,例如房间大小、通风、位置等,但任何意见都会受到欢迎。
答案1
普遍的共识似乎是,你的问题的答案分为两部分:
我们如何找到奇怪的烧焦味的来源?
你已经很好地掌握了“如何”:
- “嗅探测试”
- 寻找可见的烟雾/霾
- 带着红外热像仪走遍房间寻找热点
- 检查监控和设备面板是否有警报
您可以通过多种方式提高快速发现问题的机会 - 改进监控通常是最简单的方法。以下是一些需要问的问题:
- 您是否从设备获取温度和其他健康警报?
- 您的 UPS 系统是否向监控系统报告故障?
- 您的配电设备是否发出了电流消耗警报?
- 房间烟雾探测器是否向监控系统报告?(以及可以吗?)
我们什么时候应该排除故障,什么时候应该按下“大红色开关”?
这是一个更有趣的问题。
按下大红色开关可能会让您的公司在短时间内损失大量金钱:清洁剂的泄漏可能高达数万美元,紧急断电(EPO,“房间关闭”)后的停电/恢复成本可能是毁灭性的。
您不想因为电源中的电容器爆裂并使房间发出异味而导致数据中心关闭。
相反,服务器机房发生火灾可能会使您的公司的数据/设备丢失,更重要的是员工的生命。
解决“奇怪的烧焦味”问题永远不应优先于安全因此,制定一些关于如何解决“火灾前”情况的明确规则非常重要。
以下准则是我个人的局限性我在没有(或除了)任何其他明确定义的程序/规则的情况下应用这些规则 - 它们对我很有用,也可能对你有帮助,但它们也可能很容易让我在明天丧命或被解雇,所以应用它们需要你自己承担风险。
如果发现烟雾或火灾,请放下房间
这应该是不言而喻的,但我们还是要说一下:如果发生火灾(或烟雾表明即将发生火灾),则应撤离房间、切断电源并启动灭火系统。
可能会有例外(运用一些常识),但这几乎总是正确的做法。如果你要进行故障排除,请务必至少让另一个人参与
原因有二。首先,您不想在数据中心闲逛时突然发现您正在走的那排机架上架起了一台机架,而没有人知道您在那里。其次,另一个人可以检查您是排除故障还是放弃房间,如果您决定按下 Big Red Switch,您可以有第二个人同意这个决定(这有助于避免这种决定对职业发展造成限制,如果后来有人质疑的话)。排除故障时采取谨慎的安全措施
确保始终有一条逃生路径(一排的开口和一条通往出口的畅通路径)。
让某人守在 EPO/灭火释放处。
随身携带灭火器(请使用哈龙或其他清洁剂)。
记住上面的规则 1。
如有疑问,离开这个房间注意呼吸:使用呼吸器或氧气面罩。万一发生化学火灾,这可能会挽救您的健康。设定限制并坚持下去
更准确地说,设定二限制:- 健康)状况(“我还能让情况变得多糟糕?”),以及
- 时间(“在风险过大之前我还要尝试寻找问题多久?”)。
你设定的限制还可以用来让你的团队开始有序关闭受影响的区域,所以当你做拉动电源,你就不会崩溃一堆活跃的机器,你的恢复时间将会短得多,但请记住,如果有序关闭时间过长,你可能不得不让一些系统以安全的名义崩溃。
相信你的直觉
如果您在任何时候担心安全问题,请取消故障排除并清理房间。
您可以根据直觉放弃房间,也可以不放弃,但在房间外(相对)安全地重新集合是明智之举。
如果没有迫在眉睫的危险,您可以选择在采取任何激烈行动(如 EPO 或清洁剂释放)之前联系当地消防部门。(他们可能会告诉你这样做:他们的职责是保护人,然后是财产,但他们显然是处理火灾的专家,所以你应该按照他们说的做!)
我们已经在评论中提到了这一点,但也可以在答案中总结一下——@DeerHunter、@Chris、@Sirex 和许多其他人都参与了讨论
答案2
热成像摄像机可以完成这项工作,让您识别过热的位置。这样的设备还可以让您识别烟雾弥漫的房间中火灾或燃烧的源头。
答案3
答案4
这是其中一种情况
不适用,你应该打电话给专业人士
其他任何事情都是愚蠢的。