排除异常的服务器机房电源问题。(疑似电涌或峰值)

排除异常的服务器机房电源问题。(疑似电涌或峰值)

我们新办公室的服务器机房中的所有电源插座都出现了一个非常奇怪的问题。

具体来说,当所有设备都正常运行时(即空调系统、2 个机架式服务器、5 个 48 端口 PoE 交换机以及门禁系统 - 其备用电池和主控制电路位于服务器机房内),我们偶尔会看到服务器自发重启,门禁系统重启,PoE 交换机同时进入非工作状态,每次持续 20 分钟或更长时间。发生这种情况时,所有三个系统都会同时重启。所有三个系统都在同一电路上。

服务器和交换机由 UPS 设备运行,卡访问系统也有自己的备用电池 - 因此简单的瞬间断电无法解释这种情况,因为一切应该由 UPS 继续运行而不会中断。我们已将 UPS 从墙上断开,并看到服务器继续运行,正如预期的那样 - 因此就断电而言,UPS 似乎工作正常。

所有断路器都没有跳闸或需要重置。

空调系统显然与服务器和网络设备处于不同的电路中;但是,其电源线与通向服务器等使用的墙上插座的电源线共用一个导管。由于它们彼此并联了好几米,当空调打开或关闭时,是否存在从一个电路到另一个电路感应电压的风险?

我与一位试图弄清楚发生了什么事的电工交谈,他说,尽管空调机组与服务器和其他系统位于不同的电路上,但这两个电路实际上共用一个中性线 - 他认为这可能会导致问题。这是正常配置吗?还是将空调机组与服务器机房中的敏感设备共用中性线会被视为不良做法?

目前,问题已自行平息。服务器已停止自发重启,交换机已恢复在线,但尚未做出任何实质性改变,因此潜在问题仍然存在,并且迟早会再次出现。

鉴于我们看到这些事件期间多个带有独立电池备用单元的系统重新启动,除了电涌或峰值之外还可能有哪些解释?

答案1

虽然这不是您所希望的直接的“这是您的问题”的答案,但这是我的建议。

看来,尽管你的追求很高尚,但找出问题所在并不能很快得到解决。

您可以按照其他人建议的方式尝试记录任何您可以记录的内容并希望出现一种模式。

我喜欢 derobert 的建议,雇人来测量电能质量……

但是,这是我的实际建议,您已经这样做了。 把它留给电工吧。

认真说。合格的电工(即使你必须外包)应该能够告诉你根本原因如果是否属于电气性质。他们可以测试每个电路以确保它们不会过载(特别是在峰值/启动时),他们可以确保接线合适并且电路尺寸适合您要连接的内容。等等。等等。

大多数时候,IT 部门都没有自己合格的电工,我们往往只是“插上东西”,却没有意识到我们是否使用了正确的电路、平衡电路等。

如果您的 UPS 支持日志收集,我会这样做,至少可以证明这个问题。虽然您的 UPS 可能不够高端,无法正确(快速)地补偿峰值/谷值,但这并不意味着它是根本原因。在我看来,这听起来像是电气问题。如果您正在运行一个不错的在线 UPS,并且它似乎正在正确补偿输入电压(基于其日志),那么插入它的所有 IT 设备和读卡器系统同时重新启动将是很奇怪的。

和你的老板沟通,并解释这个问题,说需要专业电工来诊断。指望电工设置 BGP 路由是不公平的,相反,不要指望系统管理员是合格的电工。

相关内容