运行一周后，corosync/pacemaker 处于“陈旧”状态

2024-5-30 • tag-icon

我有一个简单的 3 节点 pacemaker/corosync 设置。Ubuntu 14.04.2。3 个节点，2 个资源 - IP - 已配置。

ii  crmsh                               1.2.5+hg1034-1ubuntu4            all          CRM shell for the pacemaker cluster manager
ii  pacemaker                           1.1.10+git20130802-1ubuntu2.3    amd64        HA cluster resource manager
ii  pacemaker-cli-utils                 1.1.10+git20130802-1ubuntu2.3    amd64        Command line interface utilities for Pacemaker
ii  corosync                            2.3.3-1ubuntu1                   amd64        Standards-based cluster framework (daemon and modules)
ii  libcorosync-common4                 2.3.3-1ubuntu1                   amd64        Standards-based cluster framework, common library

运行完美，但当一周内没有任何故障转移/重启时，集群会停止对节点死亡做出反应。我重现了几次这种情况。

当我重新启动一个节点时，其他节点上的 crm status 命令将其显示为“UP”（我希望看到其间的状态为 DOWN）。

如果我重新启动另一个节点（最好是 DC），那么最后一个节点上将出现“无法定人数”的情况 - 3 个节点中有 2 个暂时关闭。

最后，当前两个重新启动时，集群就恢复健康了。

现在，如果我重新启动 3 个节点中的任何一个 - 我立即可以看到给定节点上的 crm 状态更新为“DOWN”。并且这将在接下来的几天内有效，直到它再次变得“过时”。

有人能提示一下这是什么原因造成的吗？刚重启的集群几天内运行正常。然后 DC 变得……“陈旧”了？？

在 syslogs 中搜索 'corosync\|pacemakerd\|crmd\|attrd' 没有显示问题（或者我错过了）

我是否应该安排每天重新启动 corosync/pacemaker 以防止出现这种奇怪的状态？

这是我的基本 corosync.conf 文件：

totem {
        version: 2
        token: 3000
        token_retransmits_before_loss_const: 10
        join: 60
        consensus: 3600
        vsftype: none
        max_messages: 20
        clear_node_high_bit: yes
        secauth: off
        threads: 0
        rrp_mode: none
        interface {
                ringnumber: 0
                bindnetaddr: 10.20.0.0
                mcastaddr: 226.94.1.1
                mcastport: 5405
        }
}

amf {
        mode: disabled
}

quorum {
        # Quorum for the Pacemaker Cluster Resource Manager
        provider: corosync_votequorum
        expected_votes: 2
}

aisexec {
        user:   root
        group:  root
}

logging {
        fileline: off
        to_stderr: yes
        to_logfile: no
        to_syslog: yes
        syslog_facility: daemon
        debug: off
        timestamp: on
        logger_subsys {
                subsys: AMF
                debug: off
                tags: enter|leave|trace1|trace2|trace3|trace4|trace6
        }
}

相关内容