双 Xeon 服务器电压低

双 Xeon 服务器电压低

我有一台运行 CentOS 5.7 的白盒服务器。它是双 Xeon 5620,24GB RAM。主板是 SuperMicro X8DT6-F,机箱是 SC825TQ-R720LPB。双 720W 电源。

几周前我们遭遇了一次大规模停电,导致所有服务器瘫痪,我没有该服务器停电前的数据,我注意到这些数据的唯一原因是,当我启动服务器时,我比平时更加​​仔细地检查了它们。

https://i.stack.imgur.com/gPc0Z.png(电压读数图片)

如您所见,CPU1 DIMM 为低,+3.3V 为高,3.3VSB 为高,+5v 为高,+12v 非常低(超出正常值 5%(正负))... 并且 VBAT 超出图表范围。

对于我的白盒 VAR,我们尝试了以下方法:

  1. 将 PSU 与另一台具有相同 PSU 的服务器交换。
  2. 尝试不同的电源线
  3. 如果读数错误,请更新 BMC/IPMI 固件(事实并非如此)
  4. 更新 BIOS
  5. 尝试不同的 PDU
  6. 尝试不同的插座和/或电路
  7. 更换电压调节器单元

到目前为止,我们唯一还没有做的事情似乎就是更换主板......除非有其他迹象表明情况有所改善,否则下一步就是更换主板。

我应该说一下,这个系统非常稳定,考虑到 12v 电压相差甚远,这令人惊讶。

答案1

鉴于你说服务器非常稳定,运行正常,而这些电压明显偏离,我敢打赌,要么是监控软件误解了电压,要么是传感器出现故障/缺陷。如果这些是实际电压,系统就会出现很多问题,电池可能会因过度充电而损坏。

我假设您使用 IPMI 来获取电压读数 - 因为这是由硬件制造商控制的,所以不太可能出错。因此,电压传感器存在故障,大多数系统的主板上都内置有电压传感器。

为了验证这一理论,使用电压表测量电池和 12v 电源轨。由于它们距离最远,因此应该很容易看出它们是否接近传感器报告的值。

解决方案是更换主板,或者忽略传感器并希望获得最佳效果。

答案2

重置 BMC 配置清除了传感器上的错误,现在一切都正常。

相关内容