上周我们遇到了以下问题:由于更换 UPS,我们不得不关闭整个基础设施。在电力操作结束时,我们重新启动了:
- 网络
- 存储区域网络
- vCenter
- ESXis(集群中 2 个)
等待ESXi启动后,发现集群出现错误:配置的资源不足以满足集群上所需的 vSphere HA 故障转移级别。
然后我们发现 vCenter 无法通过网络联系 ESXis:操作期间交换机的 PDU 已被拔掉。
重新插入 PDU 后,ESXis 现在可以与 vCenter 通信,但每个主机上都出现了以下警报:无法正确安装或配置 vSphere HA 代理。
我们决定重新启动两个 ESXi,但没有成功,错误仍然存在。
由于维护窗口的限制,我们决定从集群中移除两个主机,以便能够启动我们的虚拟机,但代价是如果一个主机发生故障则无法进行自动故障转移。
在 Google 上进行大量搜索并阅读了许多 VMware 的知识库后,我们尝试了以下操作(无顺序):
- 断开/重新连接主机
- 在没有虚拟机的情况下将主机逐个重新分配给集群
- 重新启动 vSphere High Availability 服务重新配置 HA (FDM)
- 重新检查网络需求搜索 vSphere 6.x 的网络端口图
- 禁用/启用 HAVMware 高可用性故障排除
- 卸载/重新安装 FDM知识库 2056299
没有更多结果...
/var/log/fdm.log
在我们的旅途中,我们在两台主机上仅发现一个错误:
2018-06-25T09:05:54.232Z error fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterPersistence::DoFetchDataSync] Open of file /etc/opt/vmware/fdm/kvstore failed: No such file or directory
2018-06-25T09:05:54.232Z warning fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterManagerImpl::ReadPersistentObject] Couldn't open kvstore
在 Google 上搜索这个 kvstore 东西没有找到任何结果,也许我必须检查一下我的 google-fu...
答案1
我知道你提到你已经尝试过了,但为了帮助别人,我只想说,我们的解决方案是从整个集群中完全禁用/删除 HA 配置,然后再次启用它。除了您的帖子外,我也没能用 Google 找到任何有关此内容的信息。
我们遇到了完全相同的问题。刚刚在 5 台服务器中的第 3 台上完成了 6.5 的更新。前两次更新顺利,HA 没有问题。第三次更新顺利,但 HA 无法恢复。同样的错误。fdm.log 文件中的消息相同(打开文件 /etc/opt/vmware/fdm/kvstore 失败:没有此文件或目录)。
答案2
我遇到了类似的问题,无法通过提到的标准技巧解决。
解决方案是推出 vcenter fdm 包并使用主机上的强制选项对其进行更新,因为我遇到了一些与 vibs 相关的问题。