起搏器未检测到节点断开连接

Question 1

其余节点均不具有法定人数，因此无法采取任何 STONITH 操作，也因此没有集群操作被视为“安全的”。

您将 clustersno-quorum-policy属性设置为多少？是freeze偶然吗？您不能使用stop默认设置，因为没有仲裁的节点将无法停止其资源，因为 GFS2 需要仲裁才能卸载，否则，访问其数据。

另外，club您示例中的 DC（指定控制器）是；它负责跟踪集群的资源。其他节点必须达到法定人数才能选举新的 DC。

在三节点集群中，两个节点的 NIC 同时发生故障的可能性极小。但是，如果您出于某种原因仍然担心，您可以向集群添加更多节点，以仅充当仲裁节点（使用-inf:位置约束来阻止它们获取资源），直到该风险变得足够小。

为了摆脱这种情况，我只需“手动”重置所有三个框：echo b > /proc/sysrq-trigger

Answer

其余节点均不具有法定人数，因此无法采取任何 STONITH 操作，也因此没有集群操作被视为“安全的”。

您将 clustersno-quorum-policy属性设置为多少？是freeze偶然吗？您不能使用stop默认设置，因为没有仲裁的节点将无法停止其资源，因为 GFS2 需要仲裁才能卸载，否则，访问其数据。

另外，club您示例中的 DC（指定控制器）是；它负责跟踪集群的资源。其他节点必须达到法定人数才能选举新的 DC。

在三节点集群中，两个节点的 NIC 同时发生故障的可能性极小。但是，如果您出于某种原因仍然担心，您可以向集群添加更多节点，以仅充当仲裁节点（使用-inf:位置约束来阻止它们获取资源），直到该风险变得足够小。

为了摆脱这种情况，我只需“手动”重置所有三个框：echo b > /proc/sysrq-trigger

Question 2

我遇到了类似的问题。就我而言，我没有关闭给定节点上的网络接口，而是更改了 AWS 安全组以禁止clua和cluc（其中club是主节点）之间的通信。

clua当我执行此操作时，集群的所有节点似乎都认为所有节点都在线。所有节点在大约 20 分钟内都未检测到和之间缺少连接cluc。之后，节点显示以下状态：

就您而言，等待一段时间后状态是否发生了变化？

Answer

我遇到了类似的问题。就我而言，我没有关闭给定节点上的网络接口，而是更改了 AWS 安全组以禁止clua和cluc（其中club是主节点）之间的通信。

clua当我执行此操作时，集群的所有节点似乎都认为所有节点都在线。所有节点在大约 20 分钟内都未检测到和之间缺少连接cluc。之后，节点显示以下状态：

就您而言，等待一段时间后状态是否发生了变化？

相关内容