有缓解 PDU 故障的计划吗?

有缓解 PDU 故障的计划吗?

一位客户刚刚经历了完全的失败APC AP7911A带开关/计量的机架配电单元 (PDU)。这显然导致所有连接的设备都发生故障。设备以及上游 UPS 单元均完好无损。

在无法平衡多个电源/PDU/UPS 装置之间的设备的情况下(例如,单电源交换机、缺少高压线路电源等),您如何缓解此类故障?这是在一个不太理想的计算机房中安装的单机架,但对于大多数中小型企业来说,这种情况很常见。是否应该为单个 PDU 故障做好计划,还是只是在发生故障时处理?

答案1

服务器中安装多个 PSU 是可以的,但并不是灵丹妙药。通常,当与电源有关的事情发生时,它们会带走周围的其他东西,例如冗余 PSU 都连接到的背板。如果两台服务器使用单独的 UPS,则更有可能继续运行。

最好的办法是在应用程序或平台层进行冗余工作,这样机器或机架就可以在不造成问题的情况下出故障,但当你没有足够的预算时,你仍然可以通过准备好任何非冗余设备的备件来降低风险,同时也要保持简单。花哨的托管 PDU 比愚蠢的配电盘更容易出故障。

另外,值得记住的是,许多小企业根本无法以正确的方式做事,或者选择以最便宜的方式做事,并承担由此造成的后果。我见过缺乏经验的管理员竭尽全力避免以这里或类似网站规定的某种方式做事,结果却带来了更糟糕的后果。一个不太理想的解决方案往往比没有好。

答案2

我曾经遇到过完全相同的情况,我尽了最大努力在服务器集群中实现冗余,但情况却因一个电源故障而变得糟糕,这反过来又导致只有一个 PSU 的设备发生故障。有时单个 PSU 设备至关重要,例如备用 DC、交换机或机架柜风扇阵列。

我想到最好的答案是使用带有**自动转换开关** (ATS) 的 PDU。这样您就可以将 PDU 连接到两个电源,如果其中一个电源发生故障,它将在两个电源之间切换,不会停机。这对于您的单个 PSU 设备来说是理想的选择,显然因为它们会一直处于开启状态。ATS 开关通常有大约 8 个插座,因此它可以有效地代替 PDU。

对于典型的 SME 场景,数据中心没有两个电源电路,但您可能有一个机架连接到一个 UPS 和主电源,或者通过两个 UPS 从主电源连接到主电源,这提供了良好的保护,否则您总是会赌哪个 PDU 源会先发生故障。我还认为这些 ATS 开关比标准 PDU 更具弹性,因此这进一步减轻了灾难的影响。

答案3

至于带有单个 PSU 的传统套件,据我所知,就像您说的那样,这只是在发生时处理的事情,但肯定会为它的发生做好计划。

如果可能的话,我会记下这样设置的套件,并为失败做好计划,并在某一时刻预料到它。

我建议确保备份计划周密、运行良好,并且灾难恢复计划经过深思熟虑并定期测试。

说到购买新套件,我会购买那些带有双 PSU 的服务器,并将每个服务器插入单独的 UPS(必要时通过 PDU)。即使是便宜的低端中小型企业戴尔服务器也可以购买带有双 PSU 的服务器。

答案4

如果您无法在机架中安装第二个 PDU,那么您别无选择,只能以某种方式设置您的服务器,以使突然断电仅造成最小​​的损害。

  1. 首先,我要确保使用电池供电的 RAID 控制器,以便磁盘上的数据保持一致,或者至少在恢复电源时可以恢复到一致状态。
  2. 第二,使用日志文件系统。这有助于保持文件系统的一致性。
  3. 第三,尝试以类似于事务的方式设置所有正在运行的服务:所有数据结构都可以恢复到一致状态,并在必要时接受最小的数据丢失(回滚)。这因服务而异(数据库、修改频率、日志……),可能需要您做大量的手工工作。如果可能的话……
  4. 第四,相应地调整您的备份策略,并尝试进行更多且更小的备份(而不是更少且更大的备份)。

但我必须实话实说,前三种方法并不能给你 100% 的保护。请随时做好从备份中恢复的准备。

相关内容