为什么 OCFS2 集群中的两个节点都不断重启?

为什么 OCFS2 集群中的两个节点都不断重启?

我们使用 SLES SP3 上的 SUSE Linux 高可用性扩展创建了一个 OCSFS2 集群。集群节点是两个共享一个磁盘的 Apache 服务器。我们启用了 stonith 和 SBD 守护进程。它运行良好,但是...

当其中一个节点与网络断开连接(VirtualBox 中的网卡断开连接)并因此两个节点无法在集群中通信时,两个服务器都会在 30 秒后重新启动。

一旦节点重新启动,其中一个节点就会不断重新启动另一个节点,服务可用性将完全丧失。要恢复,请将第一个发生故障的节点重新连接到网络(在 VBox 中再次连接网卡),问题即可解决。

问题是:

  1. 为什么会发生这种情况?
  2. 我怎样才能避免这种行为?

预期的结果是确保服务级别的可用性,以便如果一个节点暂时与网络断开连接,另一个节点可以继续提供服务。

如果我在一个节点上关闭 corosync 守护进程(killall -9 corosync),或者正常关闭该节点,则剩余节点将继续正常工作。为什么当网卡断开连接时这不起作用?:-/

我正在提供集群配置(crm configure show)这里

相关内容