CPU 使用率飙升后,VMWare ESXi 5.5 的主机服务器对 DRAC、网络和群集成员资格无响应。
主机是刀片模块,是 Dell M1000e 机箱中的 Dell PowerEdge M820,配有 4 个 Xeon E5-4620、128 GB RAM 和 RAID 6 中的本地 SSD。
所有虚拟机都是 Server 2008 R2。有一个 SQL 服务器使用 SSD RAID 来存储数据。否则,虚拟机将存储在具有 10 Gbit 链路的 QNAP 上。
资源没有过度投入。
刀片模块或 QNAP 上从未记录或指示过任何硬件故障。
服务器需要从 M1000e DRAC 进行冷重启才能再次运行。
这似乎是某种 VMWare 故障,导致硬件硬锁定,但是在踢出之前 3 个月的锁定前日志丢失了。
自重新启动以来,VMWare 和服务器硬件没有报告或指示任何问题。
有其他人经历过类似的事情吗?有什么想法、意见或建议吗?
答案1
这可能是您的 Windows VM 的问题。您能告诉我们 Windows VM 使用的是哪种网络驱动程序吗?Intel e1000?Intel e1000e?VMware vmxnet3?
如果他们没有使用 VMware vmxnet3,您将遇到一个可怕的错误,该错误表现为主机崩溃(PSOD)。请参阅相应的知识库文章#2059053
这是 Windows Server 2008R2 和 Windows Server 2012 虚拟机之间发生大量网络活动后,5.5 ESXi 主机发生崩溃的轨迹。
解决方法是迁移到 vmxnet3 驱动程序。这让很多人头疼,因为创建 Windows 虚拟机时,e1000/e1000e 是默认设置。
答案2
换作是你,我会向戴尔开一张票,并运行所有诊断程序。如果你还没有升级,他们可能会指导你将所有固件升级到最新版本。这通常是一个好主意。
我还将针对同一问题向 VMware 开具一张票据。
您可能遇到了操作系统错误或硬件故障。或者,您可以简单地将此系统标记为“可能存在问题”,然后等待看它是否再次发生。
/编辑 - 或者您可以听 Ed 的意见,和/或查看 VMware KB。