Ganeti 磁盘降级 drbd cs:NetworkFailure

Question

经过进一步调查后，我发现主节点上存在 kvm 僵尸进程：

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                      
17520 root    20   0     0    0    0 Z  613  0.0  13922:24 kvm <defunct>

我不确定如何正确地摆脱它。

我尝试从此节点迁移所有主实例（我只有 2 个），但失败了（与 bdrm 相关的错误）。我重新启动了节点。关闭机器时，由于 drbd，它卡住了。消息如下：

No response from the DRBD driver! Is the module loaded?

于是我按下了关闭机器的按钮。机器重新启动（没有任何错误），几分钟后 Ganeti 实例自动启动。

在主节点上我运行了：

$ gnt-instance info myinstance
...
     on primary:   /dev/drbd4 (147:4) *RECOVERING* 12.80%, ETA 288s, status *DEGRADED*
     on secondary: /dev/drbd4 (147:4) *RECOVERING* 12.80%, ETA 275s, status *DEGRADED* *UNCERTAIN STATE*
....

等待几分钟后，恢复完成，现在已同步。

结论：现在一切都正常，但我希望不必重新启动节点。

感谢 gf_ 的帮助。

Answer 1