为什么DRBD无法重新启动?

为什么DRBD无法重新启动?

我们运行 10 台服务器,大部分是廉价的台式机,全部运行 CentOS 5.1 和 Xen。这 10 台服务器只运行 Xen 虚拟机。有人关闭了服务器柜的电源,几台机器的硬盘烧坏了,无法再启动。不用担心,所有虚拟机磁盘映像在不同的服务器上都有 DRBD 镜像副本,我只需要启动它们,同时我还要让这两台机器恢复运行。

我已经更换了每个服务器上的启动驱动器,并重新安装了 CentOS、Xen 和 DRBD。但是,重新启动后,所有服务器都可以正常看到其本地 DRBD 设备,但报告远程链接的状态为“WFConnection”(等待连接)。每个设备都报告为“辅助/未知”。我检查过:

  • 每个服务器都正确配置了 iptables 以让 DRBD 流量通过 - 这是肯定的,iptables 配置文件来自中央存储库,与机器崩溃之前的文件相同。
  • 这不是 DNS 问题,因为每台服务器都有固定的 IP 地址,并且 DRBD.conf 直接使用这些 IP 地址,因此甚至不使用 DNS。我已确保新安装使用与原始服务器相同的固定 IP 地址和主机名。
  • 每台服务器都可以在所有使用的 IP 地址上 ping 另一台服务器,没有问题。所有服务器都连接到同一个交换机。

有人知道为什么 DRBD 仍然拒绝连接吗?

答案1

如果出现“裂脑”的情况,可以使用以下命令来解决:

  1. 确定哪个服务器具有最准确的数据(将其称为 A - 将另一个服务器称为 B)
  2. 在 B 上:drbdadm secondary all; drbdadm -- --discard-my-data connect all
  3. 在 A:drbdadm primary all; drbdadm connect all

我已将 drbd 配置为在发生脑裂情况时通知我。您可以在 /etc/drbd.conf 中使用以下命令执行此操作裂脑处理程序在下面处理程序标题。

答案2

您必须手动将分区设为主分区drbdadm primary all。然后您需要挂载该分区。

您使用 heartbeat 吗?如果使用,heartbeat 应该会为您处理一切。只需运行 即可/usr/lib/heartbeat/hb_takeover

答案3

好的,我找到了答案。正如 Brent 指出的那样,DRBD 设备需要是主设备,然后才能从中运行 Xen 虚拟机。但我甚至还没有到达那个阶段,不同机器上的两个 DRBD 设备拒绝承认对方的存在。我终于想到在重新启动后检查 /var/log/messages,看到一行“检测到裂脑,断开连接!”,这让我在 Google 上找到了一些东西,并找到了以下说明:

http://www.drbd.org/users-guide/s-resolve-split-brain.html

事实证明这是解决方案 - DRBD 无法分辨哪台机器上的哪个设备是最新的,因此您必须手动告诉它使用哪个设备。如果 DRBD 可以将问题报告为状态(“SPTBrain”而不是简单的“WFConnection”,也许)那就太好了,因为 /var/log/messages 中有很多内容,而我前几次查看时错过了错误消息。

相关内容