哪种 STONITH 硬件可用于电源防护?

哪种 STONITH 硬件可用于电源防护?

我想使用 corosync/pacemaker/drbd 设置一个双节点高可用性集群。当然,为此我需要隔离。据我所知,所有 IPMI/iLO/... 解决方案都可以完成这项工作,但前提是机箱有电。如果节点 B 断电,节点 A 就没有机会对节点 B 使用 STONITH。

哪种硬件可以解决这个问题?是否有(标准机架)服务器提供使用电池运行的 IPMI/iLO/... 硬件?我应该使用网络连接的 UPS 吗?

答案1

您可以配置基于 iLO/IPMI 的隔离,然后使用例如带有 APC 电源开关的 fence_apc 隔离代理作为辅助隔离设备。这样,如果服务器断电,辅助隔离代理仍然能够以对集群有意义的方式对服务器进行 STONITH。

就像描述的一样这里

一个节点可以有多种隔离方法,每种隔离方法可以有多个隔离设备。

为了冗余/保险,设置了多种隔离方法。例如,您可能正在为集群中的节点使用基板管理隔离方法,例如 IPMI、iLO、RSA 或 DRAC。所有这些都依赖于网络连接。如果此连接失败,则无法进行隔离,因此作为备用隔离方法,您可以声明第二种隔离方法,该方法使用电源开关或类似的东西来隔离节点。如果第一种方法无法隔离节点,则将采用第二种隔离方法。

您还可以考虑添加围栏手册作为一个次要的隔离代理,这样您就可以随时恢复集群,但当然需要手动干预。

答案2

据我所知,没有标准的硬件(或软件)解决方案。
如果不存在其他节点,您就无法将其射入头部。

你可以用很多不同的方式来处理这个问题——我建议的一个方法是使用智能PDU- 当其他 STONITH 技术都不起作用时,作为最后的手段,命令其电源插座“关闭”,您不必担心它会恢复,直到有人再次命令电源“打开”。 (这实际上只是防止有人意外拉动电源线的一种保护措施......)

也可以使用托管交换机来实现类似的解决方案,关闭机器所连接的端口,或者将它们放入“修复器”VLAN,以便您可以连接到那里的盒子并准备重新加入集群。


上述两个想法都依赖于数据中心的供电和连接(PDU、交换机等都需要工作,并且需要存在连接,以便您可以向基础设施设备发送命令)。

如果你不能依赖电源,一个经典的解决方案就是配置你的服务器不是在电源故障后自动开机(IPMI/iLO 等在机箱通电后仍会启动,因此您可以稍后手动启动它,也许在如上所述隔离其网络端口之后)。
这可以避免“坏”节点重新上线,但确实为该过程添加了手动(或自动手动)步骤。

如果你的问题在于连接性而不是电源,那么你有一个更困难的问题——断开连接的节点需要拍摄他们自己在头部。(这个问题就是为什么我的集群配置不会自动重新激活失败的成员:当一个盒子发生故障并恢复时,它会处于部分在线状态并等待我告诉它重新加入。这是一个手动步骤,但它不应该以任何频率发生。)

相关内容