遇到了一个有趣的问题。因此,我们有一个 3 节点的 vsan 集群(所有三个节点都提供计算机和存储)。我们可以将这三个节点称为 esxi01、esxi02 和 esxi03。用户报告了错误,经过调查后发现以下情况:
- vCenter 不可用
- 主机 esxi01 完全挂起
- 能够直接登录 esx02/03 和虚拟机的块...我们的 vCenter VM 显示为无效。尝试取消注册并注册现在显示虚拟机的名称(vcenter-server)。
- 关闭 esxi01/02/03 并重新启动服务器。
此时,esxi02 和 03 形成了一个 vsan 集群,esxi01 位于其自己的集群中(esxcli vsan cluster get)。我尝试离开 esxi01 上的集群(esxcli vsan cluster leave)并重新加入(esxcli vsan cluster join -u <子集群 UUID 的 uuid:来自 esxi02/03 集群)。该命令没有失败,但在 esxi01 上运行 esxcli vsan cluster get 时,它将自己显示为子集群主节点,集群中只有它自己。
我已经验证中间没有防火墙阻止它,所有网卡都在线,vsan 流量的 vmk 可以在所有三个主机之间通信,并且在 esxi01 上运行了 tcpdump 并且可以看到端口 12321 流量。
有什么想法可能造成这种情况吗?