起搏器故障超时不会重置故障计数

2024-5-31 • tag-icon

我在 Centos7 上使用 Pacemaker 1.1.13 和 Corosync 2.3.4。

我的主/从资源有问题。我的资源有以下元属性：

迁移阈值=1

失败超时=10s

但是当资源关闭时，只有一次尝试启动的机会。文档说，属性failure-timeout=10s应该每10秒重置一次失败次数，但这并没有发生，所以资源永远不会启动。

您对这个问题了解多少？也许我做错了什么？我在下面发送了我的“pcs 状态”：

Cluster Name: webcluster
Corosync Nodes:
 10.121.100.101 10.121.100.102
Pacemaker Nodes:
 pm-node1 pm-node2

Resources:
 Master: Services-master
  Meta Attrs: failure-timeout=10s
  Group: Services
   Meta Attrs: migration-threshold=1
   Resource: Test (class=ocf provider=scooty type=test)
    Operations: start interval=0s timeout=20 (Test-start-interval-0s)
                stop interval=0s timeout=20 (Test-stop-interval-0s)
                monitor interval=10 role=Master timeout=20 (Test-monitor-interval-10)
                monitor interval=11 role=Slave timeout=20 (Test-monitor-interval-11)

Stonith Devices:
Fencing Levels:

Location Constraints:
Ordering Constraints:
Colocation Constraints:

Resources Defaults:
 migration-threshold: 1
 failure-timeout: 10
Operations Defaults:
 No defaults set

Cluster Properties:
 cluster-infrastructure: corosync
 cluster-name: webcluster
 dc-version: 1.1.13-10.el7_2.4-44eb2dd
 have-watchdog: false
 last-lrm-refresh: 1475145002
 no-quorum-policy: ignore
 start-failure-is-fatal: false
 stonith-enabled: false

答案1

根据故障类型，failure-timeout可能不足以清除它。启动和停止操作失败被视为“致命”失败，不会通过故障超时自动清除。

如果启动操作失败，您可以设置集群属性start-failure-is-fatal=false。隔离/STONITH 设备是从停止故障中恢复的唯一方法。

希望有所帮助。

答案1

相关内容