好吧,我得到的情况与描述基本相同这里。
不同之处在于:
- ESXi 6.7.0 已完全修补
- 本地 SSD 和 HDD
VM 正在运行通用的 Nextcloud 堆栈(MySQL、Apache2、PHP)。
在我将 ESXi 升级到当前补丁级别(我认为是 1 月或 2 月补丁)后不久,就出现了此问题。相关系统上没有其他与存储相关的更改。我唯一想到的是 VM 经历了高磁盘负载,因为有时 ghettoVCB 和基于 ssh 的备份会重叠。
我可以看到内核发出了指向存储访问超时的消息。我还在 ESXi 上发现了一条日志消息,内容如下:
Lost access to volume UUID (name) due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.
但没有进一步报道。
让 VM 和 ESXi 再次负责的唯一解决方案是对 ESXi 主机进行硬重置。
随着研究的深入,我将更新此问题。如果有人有任何想法,我将非常感谢您的帮助!
答案1
假设 ESXi 主机和存储设备之间没有连接问题,并且您已经检查过 LUN 是否存在路径不一致(如果有),则似乎存在由 ESXi 修补引起的驱动程序兼容性问题。
您可以尝试禁用 vmw_ahci 驱动程序:
esxcli system module set --enabled=false --module=vmw_ahci
如果这不起作用,您应该恢复到 ESXi 的先前补丁或尝试恢复初始驱动程序(这可能非常困难)。
此外,检查 vmkernel.log、vobd.log 和 vmksummary.log 可能会揭示有关确切原因的详细信息。
答案2
这个非常简单:一个硬盘发生故障,而这个硬盘正是这个虚拟机作为数据磁盘访问的。它物理上损坏了,但 ESXi 和管理板都没有发现这一点。
TL;DR:硬盘出现故障,但未被检测到。此问题与软件无关。