我正在尝试使用 corosync 和 pacemaker 设置 3x 节点集群,并带有 scsi 防护。
我不知道为什么集群状态显示没有隔离设备,而隔离设备实际上是存在的:
$ sudo pcs status
Cluster name: nfs_cluster
WARNINGS:
No stonith devices and stonith-enabled is not false
Cluster Summary:
* Stack: corosync
* Current DC: nfs1.urbaman.it (version 2.1.2-ada5c3b36e2) - partition with quorum
* Last updated: Mon Aug 21 14:52:04 2023
* Last change: Mon Aug 21 14:50:40 2023 by root via cibadmin on nfs1.urbaman.it
* 3 nodes configured
* 3 resource instances configured
Node List:
* Online: [ nfs1.urbaman.it nfs2.urbaman.it nfs3.urbaman.it ]
Full List of Resources:
* Resource Group: nfs_group:
* nfs_server (systemd:nfs-server): Started nfs1.urbaman.it
* nfs_ip (ocf:heartbeat:IPaddr2): Started nfs1.urbaman.it
* scsi-shooter (stonith:fence_scsi): Started nfs1.urbaman.it
Daemon Status:
corosync: active/disabled
pacemaker: active/disabled
pcsd: active/enabled
不仅如此,隔离似乎起作用了(隔离节点关闭),但是节点没有重新启动,我必须在节点上手动重新启动集群。
有没有办法正确设置 scsi 隔离设备?
PS:目前,scsi共享磁盘不是原始设备,它有一个100%的分区:
$ sudo ls /dev/disk/by-id | grep wwn
wwn-0x600140588e28679158549bf8bc7aa9eb
wwn-0x600140588e28679158549bf8bc7aa9eb-part1
这可能是问题所在吗?编辑:不,即使没有分区,集群似乎也无法识别隔离设备,隔离设备就在那里,并且隔离节点不会重新启动。
答案1
我最终解决了消除 scsi 设备的问题并使其与软件看门狗和无盘 sbd 一起工作。
现在 fwnceing 可以正常工作,并且节点也重新启动。