我最近将我们的集群更新到了 Vmware Esxi 7.0 Update 3。几天后,虚拟机开始随机冻结。屏幕上没有显示任何消息。在虚拟机事件中,我看到以下消息:
In(05) vcpu-0 - NVME-VMM: Controller level reset via CC.EN bit transition on nvme0
In(05) vcpu-0 - NVME-CORE: Doing a partial reset of controller regs and queues.
In(05) vcpu-1 - NVME-VMK: nvme0:0: Ignoring completions [ignoreCmp=0].
In(05) vcpu-8 - NVME-VMM: Unexpected CQ#8 doorbell write: prevHead=46, newHead=47, size=256, inflight=0
In(05) vcpu-0 - Vix: [vmxCommands.c:7182]: VMAutomation_HandleCLIHLTEvent. Do nothing.
In(05) vcpu-0 - MsgHint: msg.monitorevent.halt
In(05)+ vcpu-0 - The CPU has been disabled by the guest operating system. Power off or reset the virtual machine.
在虚拟机中我没有看到任何错误报告。除了在机器锁定时弹出这个错误。
kernel: [28667.084637] nvme nvme0: I/O 197 QID 14 timeout, aborting
kernel: [28667.084716] nvme nvme0: Abort status: 0x0
kernel: [28697.292556] nvme nvme0: I/O 197 QID 14 timeout, reset controller
kernel: [28697.356676] nvme nvme0: 15/0/0 default/read/poll queues
虚拟机配置了 nvme 控制器,并将虚拟磁盘放置在通过光纤通道上的 nvme 映射到 nvme 存储的卷上。
将 Esxi 版本降级回 7.0 Update 2d 后,问题消失。
Vmware 告诉我这可能与内核错误有关。
可能是什么问题?