我在 Centos7 上使用 Pacemaker 1.1.13 和 Corosync 2.3.4。
我的主/从资源有问题。我的资源有以下元属性:
迁移阈值=1
失败超时=10s
但是当资源关闭时,只有一次尝试启动的机会。文档说,属性failure-timeout=10s应该每10秒重置一次失败次数,但这并没有发生,所以资源永远不会启动。
您对这个问题了解多少?也许我做错了什么?我在下面发送了我的“pcs 状态”:
Cluster Name: webcluster
Corosync Nodes:
10.121.100.101 10.121.100.102
Pacemaker Nodes:
pm-node1 pm-node2
Resources:
Master: Services-master
Meta Attrs: failure-timeout=10s
Group: Services
Meta Attrs: migration-threshold=1
Resource: Test (class=ocf provider=scooty type=test)
Operations: start interval=0s timeout=20 (Test-start-interval-0s)
stop interval=0s timeout=20 (Test-stop-interval-0s)
monitor interval=10 role=Master timeout=20 (Test-monitor-interval-10)
monitor interval=11 role=Slave timeout=20 (Test-monitor-interval-11)
Stonith Devices:
Fencing Levels:
Location Constraints:
Ordering Constraints:
Colocation Constraints:
Resources Defaults:
migration-threshold: 1
failure-timeout: 10
Operations Defaults:
No defaults set
Cluster Properties:
cluster-infrastructure: corosync
cluster-name: webcluster
dc-version: 1.1.13-10.el7_2.4-44eb2dd
have-watchdog: false
last-lrm-refresh: 1475145002
no-quorum-policy: ignore
start-failure-is-fatal: false
stonith-enabled: false
答案1
根据故障类型,failure-timeout
可能不足以清除它。启动和停止操作失败被视为“致命”失败,不会通过故障超时自动清除。
如果启动操作失败,您可以设置集群属性start-failure-is-fatal=false
。隔离/STONITH 设备是从停止故障中恢复的唯一方法。
希望有所帮助。