我家里有两台 HP DL165 G7 ProLiant 刀片服务器。我买的是二手的,所以没有剩余的支持。一台运行 FreeBSD 系统(FreeNAS 9.10),另一台运行 Linux(Ubuntu 16.04 LTS),都是裸机安装。它们是基本相同的双 12 核 AMD 系统,配备 48GB RAM;外围设备略有不同(硬盘、电视输入卡等),以适应不同的用途。
在随机且相当罕见的情况下,我回家时会发现两台服务器均无响应,风扇全速运转,类似于初始开机状态。总是两台设备都这样,而不只是一台。我没有注意前面板 LED,只是它们不再闪烁。没有红灯。本地键盘和显示器也没有响应。任何日志文件中都没有任何消息;它们只是突然结束,没有任何问题迹象。要重置,我必须按住电源按钮关闭,然后再打开。它们每次都恢复正常,没有问题。
假设这是随机电源故障,我购买了一台 UPS(Tripp-Lite)并通过单独的开关输出为它们供电。这种锁定情况之后仍然发生过一次,但我无法将故障归咎于任何事情。UPS 没有报告任何故障,但我认为它太小而无法检测到。这种情况很少发生,我无法隔离问题。
昨晚,电源完全断电,系统正常切换到电池供电。电池运行 10 分钟后,电池电量仍剩下约 60% 以上,我站在机架前,正要启动关机,这时我听到某种声音(我认为是 UPS)非常短暂地发出(像快速的嗡嗡声),两个系统都进入了这种锁定状态。
这种情况最多一个月发生一两次,所以我无法确定是什么原因。两个系统的利用率都较低(FreeNAS 几乎总是低于 1.0,而 Ubuntu 系统一直在 2.0 左右)。
由于系统使用电池供电,因此来自 UPS 逆变器的输入馈电应该没有故障。因为无论是什么原因都会导致两台服务器停机,尽管它们之间没有什么共同点,那么问题可能是什么呢?电源随机故障导致输入下降到电压过低的水平?
这种故障模式(风扇开到最大时无响应)是否是记录在案的问题?我还没有找到任何此类示例,但也许我使用了错误的搜索词。