HP ProCurve 5412zl 在连接到 UPS 时发生电源故障时进行热启动

HP ProCurve 5412zl 在连接到 UPS 时发生电源故障时进行热启动

我的客户HP ProCurve 5412zl 机箱交换机尽管通过四个冗余电源供电并受到 UPS 保护,但偶尔仍会重新启动。

这些重启通常发生在实际停电或电压不足或低电压事件期间。除交换机外,连接到 UPS 的所有设备均保持运行。

机架的 UPS 是带降压变压器的 APC SmartUPS SUA3000XL 208V。此交换机为整个设施内的电话和接入点提供 PoE。电池单元状况良好,最近更换过,并且充满电。

这些故障会导致设施内的所有电话重新启动,并断开用户与会话的连接。这非常具有破坏性。

在交换机日志中:

 Keys:   W=Warning   I=Information
         M=Major     D=Debug E=Error
----  Event Log listing: Events Since Boot  ----
I 02/17/16 22:26:31 03802 chassis: System Self test started on  Master
I 02/17/16 22:26:31 03803 chassis: System Self test completed on  Master
I 02/17/16 22:26:35 00061 system: -----------------------------------------
I 02/17/16 22:26:35 00062 system: Mgmt Module 1 went down without saving crash
            information
M 02/17/16 22:26:35 03001 system: System reboot due to Power Failure

以及版本信息:

valley-core# sh version
Image stamp:    /ws/swbuildm/rel_orlando_qaoff/code/build/btm(swbuildm_rel_orlando_qaoff_rel_orlando)
                Nov 19 2014 15:17:26
                K.15.16.0005
                335
Boot Image:     Secondary

多年来,我并没有意识到你必须修改此交换机型号的电源设置,但这个设备正确配置以利用多个 PSU。

valley-core# sh power-over-ethernet

 Status and Counters - System Power Status

  System Power Status    : Full redundancy
  PoE Power Status       : Full redundancy

 Chassis power-over-ethernet:

  Total Available Power  :  600 W
  Total Failover Power   :  600 W
  Total Redundancy Power :  600 W
  Total Used Power       :  359 W +/- 6W
  Total Remaining Power  :  241 W

 Internal Power

        Main Power
  PS    (Watts)       Status
  ----- ------------- ---------------------
  1     300           POE+ Connected
  2     300           POE+ Connected
  3     300           POE+ Connected
  4     300           POE+ Connected

 External Power
        EPS1   /Not Connected.
        EPS2   /Not Connected.

其他 PSU 信息:

valley-core# sh system power-consumption

 Slot Power Usage:
 Slot  Module Description                        Current Power
 ----- ----------------------------------------- ---------------
 A     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 B     HP J9536A 20p GT PoE+/2p SFP+ v2 zl Mod   23 W
 C     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 D     HP J9534A 24p Gig-T PoE+ v2 zl Module     19 W
 E     HP J9534A 24p Gig-T PoE+ v2 zl Module     17 W
 F     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 G     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 H     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 K     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 L     HP J9534A 24p Gig-T PoE+ v2 zl Module     19 W

valley-core# sh system power-supply

Power Supply Status:

 PS#    Model       State        AC/DC  + V      Wattage
 ---- --------- ------------- ----------------- ---------
   1   Unknwn    Powered         AC 120V           875
   2   Unknwn    Powered         AC 120V           875
   3   Unknwn    Powered         AC 120V           875
   4   Unknwn    Powered         AC 120V           875

   4 /  4 supply bays delivering power.
   Total power: 3500 W

独特之处在于,交换机是唯一断电的设备。尽管使用同一个电池或 PDU,但所有连接的服务器均不会出现电源问题。

我承认,这个位置的供电很差,电压时有时无,偶尔会突然升高。但 UPS 在最近的热启动过程中甚至没有记录任何故障。

我在另一个不相关的客户那里有另一台 5412zl,他过去多次做过同样的事情。

对此我有什么想法吗?我是否应该尝试将两个 PSU 移至市电,而不是全部移至 UPS?


编辑:

启动历史记录显示:

valley-core# sh 启动历史记录

Mgmt Module 1 -- Saved Crash Information (most recent first):
=============================================================
ID: 29008d6a
Active system went down: 02/01/16 09:23:54 K.15.16.0005 335
Switch rebooting due to temporary loss of power or low voltage

ID: 994a405a
Active system went down: 12/14/15 11:31:15 K.15.16.0005 335
switch rebooting due to temporary loss of power or low voltage

HP 在先前的固件版本中有一个变更说明:

电源 (CR_0000112424) - 当交换机受到交流电源波动且电压过低时,交换机会重新启动并生成一条不正确的错误消息,提示交换机已崩溃。修复此问题后,错误消息将更改为“由于暂时断电或电压过低,交换机正在重新启动”。

这与这篇技术说明

答案1

我最初和立即想到的与你正在考虑的一致。如果这些故障的发生与你在 UPS 上设置的任何自检计划无关(如果故障在自检时发生一定比例的时间,则说明 UPS/变压器/负载存在问题),我会完全按照你的建议去做。将几个 PSU 移至不同的供电,看看故障是否再次发生。如果确实发生 - 我不是随便建议这样做 - 请向 HP 提出投诉。这可能是一个痛苦而乏味的过程。但是,它们可能有助于提供指导,以便从交换机中获取真正的调试信息。我还会花点时间检查交换机上当前固件版本的发行说明/错误列表。

答案2

根据这一页,您的 UPS 系列属于“在线互动”类型。这种设计意味着它不会不断地将市电转换为直流电,然后再转换回主电源。相反,它只是坐在那里监控电源并保持电池充电。输入电源直接通过,但为了提高安全性,可能会沿途经过几个扼流圈和电涌保护装置。

当市电断电或电压骤降时,UPS 需要将其逆变器切换到电路中,开始为连接的设备提供电池电源。无论这种切换是如何进行的(无论是物理继电器还是固态继电器),您总会发现几毫秒的“间隙”。此外,UPS 的逆变器可能与市电不同相,因此交流波形会跳转到新的相位。

大多数设备并不真正关心输入电源是否在几毫秒内中断。电源中的电容器通常足够大,可以毫无问题地跨越小间隙。我见过许多服务器和网络设备完全错过几个周期,却没有出现任何故障。

我怀疑这个交换机的 PSU 比大多数交换机更关键。我认为你的问题可以通过购买另一个 UPS 来解决(连续循环转换交流-直流-交流)来运行开关。这种类型的 UPS 通常称为“在线”,但您应该与供应商核实以确认您购买的是正确类型。

答案3

通过您刚刚在编辑中添加的信息,一切都变得非常清晰。

我想到两个可能的原因:

1) 当 UPS 确实需要工作时,其输出电压会略微下降,变化率足够陡峭,使开关认为它处于低功率状态。
我以前见过 UPS 设备发生这种情况。
唯一的补救措施是减轻 UPS 的负载或购买更大的 UPS。
在某些情况下:如果 UPS 有多个输出电路,重新分配这些电路上的负载可能会有所帮助。理想情况下,每个电路的负载应该大致相同。这可以最大限度地减少输出端的电压降。

2) 另一种可能性虽然非常罕见,但也适用于具有多个输出的 UPS 装置。考虑到它们提供的交流电的相位,输出可能并不完全同步。
如果您的交换机的 PSU 连接到具有相位差的多个电路,则交换机内部结合其 PSU 电源的配电板可能无法同步并导致相同的问题。在这种情况下,解决方案恰恰相反:将所有东西放在同一个电路上。

答案4

开关显示停电。头顶的灯显示停电。我猜停电了,即使只是短暂的。这与开关无关,而与 UPS 有关。

我会仔细检查开关和 UPS 之间的电源线,确保它确实插在了你认为的位置,也许将开关放在不同的 UPS 上一段时间,只是为了看看。这个开关可能对电池切换比你的其他设备更敏感,尤其是考虑到它为你所有的手机供电;这可能会很快累积起来。

相关内容