无法将 drbd 切换为辅助

Question 1

我不确定这个 OCFS2 心跳区域是否会阻止 DRBD 切换到辅助区域：

也许吧。你试过杀死那个区域吗？这指导？

# /etc/init.d/o2cb offline serving
Stopping O2CB cluster serving: Failed
Unable to stop cluster as heartbeat region still active

好的，首先您应该列出 OCFS2 卷及其标签和 uuid：

# mounted.ocfs2 -d
Device                FS     Stack  UUID                              Label
/dev/sdb1             ocfs2  o2cb   C3E41CA2BDE8477CA7FF2C796098633C  data_ocfs2
/dev/drbd1            ocfs2  o2cb   C3E41CA2BDE8477CA7FF2C796098633C  data_ocfs2

其次，检查您是否有关于此设备的任何参考：

# ocfs2_hb_ctl -I -d /dev/sdb1
C3E41CA2BDE8477CA7FF2C796098633C: 1 refs

尝试杀死它：

# ocfs2_hb_ctl -K -d /dev/sdb1 ocfs2

然后停止集群堆栈：

# /etc/init.d/o2cb stop
Stopping O2CB cluster serving: OK
Unmounting ocfs2_dlmfs filesystem: OK
Unloading module "ocfs2_dlmfs": OK
Unmounting configfs filesystem: OK
Unloading module "configfs": OK

并使设备重新发挥次要作用：

# drbdadm secondary r0
# drbd-overview 
  1:r0  StandAlone Secondary/Unknown UpToDate/DUnknown r-----

现在您可以照常恢复裂脑：

# drbdadm -- --discard-my-data connect r0
# drbd-overview 
  1:r0  WFConnection Secondary/Unknown UpToDate/DUnknown C r-----

在另一个节点上（裂脑幸存者）：

# drbdadm connect r0
# drbd-overview                                                                                                
  1:r0  SyncSource Primary/Secondary UpToDate/Inconsistent C r---- /data ocfs2 100G 1.9G 99G 2% 
        [>....................] sync'ed:  3.2% (753892/775004)K delay_probe: 28

关于裂脑受害者：

# /etc/init.d/o2cb start
Loading filesystem "configfs": OK
Mounting configfs filesystem at /sys/kernel/config: OK
Loading filesystem "ocfs2_dlmfs": OK
Mounting ocfs2_dlmfs filesystem at /dlm: OK
Starting O2CB cluster serving: OK

# /etc/init.d/ocfs2 start
Starting Oracle Cluster File System (OCFS2)                [  OK  ]

验证此挂载点是否已启动并正在运行：

# df -h /data/
Filesystem            Size  Used Avail Use% Mounted on
/dev/drbd1            100G  1.9G   99G   2% /data

Answer

我不确定这个 OCFS2 心跳区域是否会阻止 DRBD 切换到辅助区域：

也许吧。你试过杀死那个区域吗？这指导？

# /etc/init.d/o2cb offline serving
Stopping O2CB cluster serving: Failed
Unable to stop cluster as heartbeat region still active

好的，首先您应该列出 OCFS2 卷及其标签和 uuid：

# mounted.ocfs2 -d
Device                FS     Stack  UUID                              Label
/dev/sdb1             ocfs2  o2cb   C3E41CA2BDE8477CA7FF2C796098633C  data_ocfs2
/dev/drbd1            ocfs2  o2cb   C3E41CA2BDE8477CA7FF2C796098633C  data_ocfs2

其次，检查您是否有关于此设备的任何参考：

# ocfs2_hb_ctl -I -d /dev/sdb1
C3E41CA2BDE8477CA7FF2C796098633C: 1 refs

尝试杀死它：

# ocfs2_hb_ctl -K -d /dev/sdb1 ocfs2

然后停止集群堆栈：

# /etc/init.d/o2cb stop
Stopping O2CB cluster serving: OK
Unmounting ocfs2_dlmfs filesystem: OK
Unloading module "ocfs2_dlmfs": OK
Unmounting configfs filesystem: OK
Unloading module "configfs": OK

并使设备重新发挥次要作用：

# drbdadm secondary r0
# drbd-overview 
  1:r0  StandAlone Secondary/Unknown UpToDate/DUnknown r-----

现在您可以照常恢复裂脑：

# drbdadm -- --discard-my-data connect r0
# drbd-overview 
  1:r0  WFConnection Secondary/Unknown UpToDate/DUnknown C r-----

在另一个节点上（裂脑幸存者）：

# drbdadm connect r0
# drbd-overview                                                                                                
  1:r0  SyncSource Primary/Secondary UpToDate/Inconsistent C r---- /data ocfs2 100G 1.9G 99G 2% 
        [>....................] sync'ed:  3.2% (753892/775004)K delay_probe: 28

关于裂脑受害者：

# /etc/init.d/o2cb start
Loading filesystem "configfs": OK
Mounting configfs filesystem at /sys/kernel/config: OK
Loading filesystem "ocfs2_dlmfs": OK
Mounting ocfs2_dlmfs filesystem at /dlm: OK
Starting O2CB cluster serving: OK

# /etc/init.d/ocfs2 start
Starting Oracle Cluster File System (OCFS2)                [  OK  ]

验证此挂载点是否已启动并正在运行：

# df -h /data/
Filesystem            Size  Used Avail Use% Mounted on
/dev/drbd1            100G  1.9G   99G   2% /data

Question 2

DRBD 无法降级资源的一个常见原因是活动设备映射器设备……例如卷组。您可以使用以下命令进行检查：

dmsetup ls --tree -o inverted

Answer

DRBD 无法降级资源的一个常见原因是活动设备映射器设备……例如卷组。您可以使用以下命令进行检查：

dmsetup ls --tree -o inverted

Question 3

对我来说原因是multipathd。

我遵循了 Pacemaker 的官方文档直到第 8.4 节末尾，没有安装 OCFS2 或 GFS2（在 Ubuntu 20.04 上），并且无法将 DRBD 主机从主主机降级为辅助主机：

eric@host1:~$ sudo drbdadm status
r0 role:Primary
  disk:UpToDate
  peer role:Secondary
    replication:Established peer-disk:UpToDate

eric@host1:~$ sudo drbdadm secondary r0
1: State change failed: (-12) Device is held open by someone
Command 'drbdsetup-84 secondary 1' terminated with exit code 11

检查谁在打开它：

eric@host1:~$ sudo fuser -m /dev/drbd1
/dev/drbd1:   558

eric@host1:~$ ps aux | grep 558
root  558  0.0  0.8 345856 18124 ?  SLsl 07:04  0:00 /sbin/multipathd -d -s

停止multipathd：

eric@host1:~$ sudo systemctl stop multipathd
Warning: Stopping multipathd.service, but it can still be activated by: multipathd.socket

eric@host1:~$ sudo systemctl stop multipathd.socket
eric@host1:~$ sudo fuser -m /dev/drbd1

现在尝试再次降级为次要：

eric@host1:~$ sudo drbdadm secondary r0
eric@host1:~$ sudo drbdadm status
r0 role:Secondary
  disk:UpToDate
  peer role:Secondary
    replication:Established peer-disk:UpToDate

成功！

重新启动之前multipathd，将您的 DRBD 设备（/dev/drbd1在我的情况下）添加到多路径的黑名单中：

将此部分添加到底部/etc/multipath.conf：

blacklist {
    devnode "^drbd[0-9]"
}

重新启动 multipathd.socket，然后重新启动 multipathd

eric@host1:~$ sudo systemctl start multipathd.socket
eric@host1:~$ sudo systemctl start multipathd

Answer