我有一台运行 CentOS 5.7 的白盒服务器。它是双 Xeon 5620,24GB RAM。主板是 SuperMicro X8DT6-F,机箱是 SC825TQ-R720LPB。双 720W 电源。
几周前我们遭遇了一次大规模停电,导致所有服务器瘫痪,我没有该服务器停电前的数据,我注意到这些数据的唯一原因是,当我启动服务器时,我比平时更加仔细地检查了它们。
https://i.stack.imgur.com/gPc0Z.png(电压读数图片)
如您所见,CPU1 DIMM 为低,+3.3V 为高,3.3VSB 为高,+5v 为高,+12v 非常低(超出正常值 5%(正负))... 并且 VBAT 超出图表范围。
对于我的白盒 VAR,我们尝试了以下方法:
- 将 PSU 与另一台具有相同 PSU 的服务器交换。
- 尝试不同的电源线
- 如果读数错误,请更新 BMC/IPMI 固件(事实并非如此)
- 更新 BIOS
- 尝试不同的 PDU
- 尝试不同的插座和/或电路
- 更换电压调节器单元
到目前为止,我们唯一还没有做的事情似乎就是更换主板......除非有其他迹象表明情况有所改善,否则下一步就是更换主板。
我应该说一下,这个系统非常稳定,考虑到 12v 电压相差甚远,这令人惊讶。
答案1
鉴于你说服务器非常稳定,运行正常,而这些电压明显偏离,我敢打赌,要么是监控软件误解了电压,要么是传感器出现故障/缺陷。如果这些是实际电压,系统就会出现很多问题,电池可能会因过度充电而损坏。
我假设您使用 IPMI 来获取电压读数 - 因为这是由硬件制造商控制的,所以不太可能出错。因此,电压传感器存在故障,大多数系统的主板上都内置有电压传感器。
为了验证这一理论,使用电压表测量电池和 12v 电源轨。由于它们距离最远,因此应该很容易看出它们是否接近传感器报告的值。
解决方案是更换主板,或者忽略传感器并希望获得最佳效果。
答案2
重置 BMC 配置清除了传感器上的错误,现在一切都正常。