安全地进行需要拔下服务器的测试

安全地进行需要拔下服务器的测试

因此,我基本上是在测试和诊断我的 UPS 以及我的服务器的电源 (PSU)。为此我正在用“困难的方式”关闭服务器,即从墙上拔下电源插头以模拟功率损失。

我一直按照描述的方式进行操作,并帮助我找到哪些 UPS 工作不正常,以及哪些 PSU 需要更换(如果服务器关闭,则需要进行某些更改,否则一切正常)。但是,我开始担心不断地拔掉我的服务器电源并以困难的方式“杀死”它可能会对它或我的数据造成损害。

这就引出了我的问题:是否有其他方法可以执行这些测试,以尽量减少损坏服务器或其部件的可能性?或者说我现在做的事儿没有任何问题?

再次,我试图确定哪些电源存在缺陷(即,UPS 没问题,但拔掉电源后服务器还是会死机)。我可以自己测试 UPS,以避免在服务器上尝试这种方法,但我无法弄清楚如何在不实际在实时服务器上试用的情况下测试我的 PSU 是否可以处理波动和峰值。非常感谢任何指导。


有问题的服务器HP ProLiant DL380 G7服务器,英特尔至强。我也有RAID 1硬盘驱动器上的级别。它具有Ubuntu 16.04.3 LTS在其 SSD 上运行。

答案1

你有一个HP ProLiant DL380 G7。请看以下内容:

Systems Insight Display (SID) 显示内部组件的运行状况。 在此处输入图片描述

如果任一电源上都有琥珀色灯:显示在 SID 上或实际物理单元上,则表示存在问题。

您还可以登录服务器的 ILO 检查集成管理日志。如果突然断电,日志中可能会出现类似以下内容的条目:

- Server reset.
- Server power removed. 
- Server power restored.

您可以选择不将两个电源连接到同一 UPS。将其中一个连接到主电源并观察其行为。

检查系统上的固件。G7 服务器现在已经过时了,但通过运行 Ubuntu,您可能缺少 HP 报告和管理代理(它们针对 RHEL/CentOS/VMware/Windows 进行了优化)。您可以使用下载此型号的全套固件此 HP 可引导 DVD

答案2

请勿从墙上拔下 UPS 的插头。我问过类似的问题9 年前我在这个网站上得到了以下答案埃文·安德森

当您将 UPS 从墙上拔下时,UPS 会失去接地。虽然不太可能出现任何问题,但 UPS 设计人员“希望”接地路径始终可用,如果在测试期间发生短路,当电流通过另一条路径接地时,您可能会看到火花(烟雾、火焰等)。我以前曾将 UPS 从墙上拔下进行测试,但在一次这样的测试中看到“闪电”的闪光并听到 UPS 发出巨大的“砰”的一声,让我“下定决心”不再这样做。

因此,如果您使用的是带开关的插座,请将其关闭。如果您使用的插座没有开关,请考虑将电源切换到断路器,以便接地电路保持连接。

至于通过拔掉插头来断开服务器连接,这样做不会对机器造成任何物理损坏。您可能会损坏无电池支持的 RAID 阵列,或中断正在进行的写入,这可能会导致文件系统混乱和数据丢失 - 但您的物理服务器应该没问题。

至于你的实际的问题是,在电压降低/断电/电涌期间,您仍然会丢失 UPS 上游的服务器,有以下几种情况可能会导致这种情况:

  1. 如果你的服务器有双电源,其中一个是 UPS,另一个不是(这种情况很常见),那么服务器内部的 PSU 切换可能会出现故障
  2. 同样,如果你有双电源,也许其中一个电源过载,服务器出于安全原因关闭
  3. 根据您使用的 UPS 类型,它可能不再正常工作。我曾经有一个站点经常出现电压下降的情况 - 每天有 20 到 30 次电压会降至 200v 以下(通常为 230v),UPS 会进入升压模式,有时电压会飙升至 250v,UPS 会进入降压模式。这大大缩短了传统 UPS 的使用寿命(我通常可以使用 UPS 大约一年)。我们改用双转换 UPS(也称为在线 UPS),解决了这个问题。

答案3

两点说明:

一是连接 UPS 的最佳方式是通过服务器的双电源。如果电源或 UPS(电池)发生故障,一切都会继续运行。

第二:除了关于失去阵地的说法之外,拔掉服务器电源也没什么不好(如果你不介意数据损坏的话)。除了 SSD。根据您拥有的 SSD 类型,它可能配有超级电容器来处理这个问题。但是,断电可能会损坏正在擦除或写入的块。

关于双电源的编辑:正确的方法是将一个电源安装在墙上,另一个电源通过 UPS 供电。错误的做法是只连接一个电源,或者通过 UPS 连接两个电源。如果这样做,UPS 自检失败将中断电源,并且您无法关闭它来更换电池。

当然,没有双电源的服务器就无法享受这种奢侈。

相关内容