我有一个简单的 3 节点 pacemaker/corosync 设置。Ubuntu 14.04.2。3 个节点,2 个资源 - IP - 已配置。
ii crmsh 1.2.5+hg1034-1ubuntu4 all CRM shell for the pacemaker cluster manager
ii pacemaker 1.1.10+git20130802-1ubuntu2.3 amd64 HA cluster resource manager
ii pacemaker-cli-utils 1.1.10+git20130802-1ubuntu2.3 amd64 Command line interface utilities for Pacemaker
ii corosync 2.3.3-1ubuntu1 amd64 Standards-based cluster framework (daemon and modules)
ii libcorosync-common4 2.3.3-1ubuntu1 amd64 Standards-based cluster framework, common library
运行完美,但当一周内没有任何故障转移/重启时,集群会停止对节点死亡做出反应。我重现了几次这种情况。
当我重新启动一个节点时,其他节点上的 crm status 命令将其显示为“UP”(我希望看到其间的状态为 DOWN)。
如果我重新启动另一个节点(最好是 DC),那么最后一个节点上将出现“无法定人数”的情况 - 3 个节点中有 2 个暂时关闭。
最后,当前两个重新启动时,集群就恢复健康了。
现在,如果我重新启动 3 个节点中的任何一个 - 我立即可以看到给定节点上的 crm 状态更新为“DOWN”。并且这将在接下来的几天内有效,直到它再次变得“过时”。
有人能提示一下这是什么原因造成的吗?刚重启的集群几天内运行正常。然后 DC 变得……“陈旧”了??
在 syslogs 中搜索 'corosync\|pacemakerd\|crmd\|attrd' 没有显示问题(或者我错过了)
我是否应该安排每天重新启动 corosync/pacemaker 以防止出现这种奇怪的状态?
这是我的基本 corosync.conf 文件:
totem {
version: 2
token: 3000
token_retransmits_before_loss_const: 10
join: 60
consensus: 3600
vsftype: none
max_messages: 20
clear_node_high_bit: yes
secauth: off
threads: 0
rrp_mode: none
interface {
ringnumber: 0
bindnetaddr: 10.20.0.0
mcastaddr: 226.94.1.1
mcastport: 5405
}
}
amf {
mode: disabled
}
quorum {
# Quorum for the Pacemaker Cluster Resource Manager
provider: corosync_votequorum
expected_votes: 2
}
aisexec {
user: root
group: root
}
logging {
fileline: off
to_stderr: yes
to_logfile: no
to_syslog: yes
syslog_facility: daemon
debug: off
timestamp: on
logger_subsys {
subsys: AMF
debug: off
tags: enter|leave|trace1|trace2|trace3|trace4|trace6
}
}