修复 HA 集群的正确方法是什么?

修复 HA 集群的正确方法是什么?

背景/目标

  • 我有一个用于生产机器的 VMWare HA 集群,其中包含两台主机。
  • 当前设置可处理最多一台主机的故障。它不使用 DRS。
  • 我需要修复这两台服务器以应用补丁。我希望在零停机时间内完成此操作。

问题

  • 我是否可以将群集中的虚拟机通过 vMotion 迁移到群集中的另一台主机,然后关闭一台服务器?
  • 在 HA 配置中修复服务器以避免停机的最佳/推荐方法是什么?

答案1

如果您不使用 DRS,则必须手动将已启动的虚拟机撤离到集群中的另一台主机,然后 VUM 才会修复该主机。如果您使用 HA 准入控制、分布式电源管理或容错功能,还建议您在修复主机之前禁用这些功能。

简而言之,将已启动的虚拟机迁移(vMotion)到群集中的另一台主机,修复该主机,然后将虚拟机迁移回来。

答案2

在主机/集群修复选项屏幕中禁用正确的选项:

我通常会禁用准入控制、容错和 DPM(但是谁会使用?)

可能如果该过程似乎没有启动,请手动 vMotion 几个 VM。

请耐心等待。每个主机最多需要 10-15 分钟,具体取决于您的连接性。

在此处输入图片描述

答案3

当您修复集群中的主机时,主机将进入维护模式,然后将虚拟机迁移到另一台主机并启动更新过程。更新过程完成后,主机将退出维护模式。然后,您可以进行滚动主机升级。您不必将虚拟机迁移到另一台主机,尽管您可以这样做,但我认为这一步不是必要的。因此,在您的情况下,只要您在另一台主机上有足够的容量,您就可以修复第一台主机,等待更新过程完成(查看任务和事件以获取详细信息),然后执行另一台主机

相关内容