昨天,我们整个基础设施都崩溃了,因为我们所有的 ESXi 主机都认为同时运行更新是个好主意。编辑:或者至少我们认为发生了这种情况,但没有人真正确定。
通常,我们不会更新 ESXi,除非我们遇到问题或者以某种方式被告知必须修复某些问题。
一些信息:
3x IBM x3650 M4 (7915D3G) 配置为 HA 主/从,ESXi 版本 5.5.0,IMM v. 3.73,Build 1331820
我们对这种情况感到很困惑。我们的支持人员提供了上述错误原因以及附加的日志文件,其中打印了如下行(文件非常大,因此我将只介绍这一关键部分):
2014-11-04T10:58:48.364Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e04c5e84] [WaitForUpdatesDone] Starting next WaitForUpdates() call to hostd
2014-11-04T10:58:48.364Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e04c5e84] [WaitForUpdatesDone] Completed callback
2014-11-04T10:58:48.406Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e4a7ca00] [WaitForUpdatesDone] Received callback
2014-11-04T10:58:48.406Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e4a7ca00] [VpxaHalCnxHostagent::ProcessUpdate] Applying updates from 3526 to 3527 (at 3526)
2014-11-04T10:58:48.406Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Config changed 'config.extraConfig["vmware.tools.internalversion"].value'
2014-11-04T10:58:48.407Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Config changed 'config.tools.toolsVersion'
2014-11-04T10:58:48.407Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Runtime changed 'guest.toolsVersion'
我们部门没有人在这个层面上接触过这些服务器——我们通常只管理虚拟机,而不管理主机。这怎么会自然发生呢?
上午 10:50,三台服务器同时崩溃,但没有人采取任何具体措施。我们的支持团队无法找到任何日志文件来表明存在任何问题,这很奇怪。
答案1
如果没有通过 Update Manager 从 vCenter 触发的刻意操作,VMware 主机服务器不会自动更新。请提供以下问题的答案:
- 什么具体的您有多少个 ESXi 版本号?
- 系统什么时候重启?
- 受影响主机的 vCenter 内部事件日志中显示了什么?应该很清楚发生了什么。
- IBM 带外管理工具/日志说了什么?
根据我在此处看到的信息,您的服务器可能崩溃了,并且 IBM 管理层似乎已自动重新启动系统。
您需要运行更新。您的 Windows 客户机中的虚拟 NIC 适配器可能触发了错误。它应该是 vmxnet3,而不是 Intel e1000/e1000e。ESXi 的 Build 1331820 很老旧,而且问题很多。在集群中运行 vSphere 时,保持更新非常重要。
看: