服务器突然对轻微电压下降非常敏感

服务器突然对轻微电压下降非常敏感

我们有许多 SuperMicro RAID 10 盒,配有冗余 PSU,型号和规格相同,使用相同的机架式 APC UPS。如果出现轻微电压下降,其中一个就会突然重新启动。

Windows 日志仅指向“意外”——即断电。这种情况以前也发生过,更换 UPS 总是能解决问题。所以我们将使用了 4 年的 UPS 换成了新的。当服务器启动时,UPS 决定进行自检,然后服务器再次重新启动!

我们无法找出我们拆下的那台设备的问题,所以除非两个 PSU 同时出现故障,否则我想不出还有什么其他原因会导致这种情况。将标准 UPS 换成在线 UPS 几乎肯定可以解决这个问题,但如果有什么东西出现故障……

============= 进一步澄清问题 =========================

  1. 该服务器使用相同的 UPS 和配置已运行近四年

  2. 最近,市电电源出现任何下降(都会导致 UPS 切换到电池)并且服务器重新启动。

  3. 更换 UPS 似乎并没有解决问题,因为它在服务器启动时进入自检状态,然后服务器重新启动。

我猜想电源有控制器吧?在过去的几个月里,有些东西对切换所需的毫秒数变得更加敏感。

由于停机是一个主要因素,用在线 UPS(如 APC SRT 系列)再次更换 UPS 可以解决当前问题 - 但这种症状是否会发展成另一个严重问题?

电源

IPMI 事件日志

答案1

编辑:您遇到了三个问题之一,如果不记录系统断电的停机时间长度,您就无法验证这些问题。您确实提到过 UPS 上出现瞬时断电,您需要将这些与 Supermicro 的日志关联起来。如果您不想使用 UPS 日志,您可以将一根电源线连接到墙上,但 UPS 日志将提供有关状态的更详细信息。

所有这些都会触发 Bios 事件日志来记录断电事件。(1)实际问题停电时间较长,(2)UPS 在瞬态期间未提供所需的电力(调节问题),或(3)系统中的 PSU 或 PDU 存在问题,无法为主板维持电源良好 (PG) 状态。

Supermicro 机箱根据运行的电源数量消耗不同的电量。当 UPS 电量不足时,双 PSU 系统会从每个 PSU 消耗 50% 的负载,滞后的电源会尝试达到 100%,从而加速 UPS 电量下降。

您不应该在同一个 UPS 中同时拥有两种电源,而且您应该通过管理来查看 UPS 负载。

您还应该知道,非棕色 UPS 上的 UPS 负载将加倍。我猜 UPS 的大小与预期的峰值负载不匹配。这会影响系统和 UPS。

UPS 管理 GUI 中的信息包含有关电源质量以及电池状态和负载信息的图表。这将告诉您是否在特定时间发生电压降低,并让您首先找到发生电压降低的原因。

当电源正常时,电源似乎运行正常。目前尚不清楚当问题发生时会发生什么。可拆卸的内部 PSU 仅输出 +12 伏和 PowerGood(+5)。系统内部有一个配电单元 (PDU),它将电线连接到主板上,并将 +12v 分成主板所需的所有其他电压。当 UPS 出现瞬变时,无论出于何种原因,Supermicro 的电源都会超出 ATX 规格(如下),系统将关闭。这是额定值的 95%。

该 PDU 可能有问题,但唯一的测试方法是更换未发现问题的系统的电源。更换 PDU 是一项非常繁琐的工作。

根据 ATX 规范: The ATX specification requires that the power-good signal ("PWR_OK") go high no sooner than 100 ms after the power rails have stabilized, and remain high for 16 ms after loss of AC power, and fall (to less than 0.4 V) at least 1 ms before the power rails fall out of specification (to 95% of their nominal value). 维基百科 ATX 电源良好

相关内容