esxi vsphere 上的其中一台机器停止工作,没有任何错误

esxi vsphere 上的其中一台机器停止工作,没有任何错误

我的一台服务器上有一些虚拟机。其中一台几天前因 esxi 上的 CPU 错误而停止工作,因此我将机器的 CPU 从 4 核升级到 10 核。它有 20 GB 的 RAM 内存,也有足够的磁盘空间。

这台机器只是用于检查员工出入的应用程序,它连接到出入时钟设备。发生这种情况后,我不得不重新启动机器,它正常工作,没有错误,但几个小时后,机器就冻结并停止了,我在 esxi vsphere 上没有错误,当我想从 esxi web 远程打开机器时,它只显示一个黑屏,我无法执行任何操作,我也没有机器的 ping 并给我超时。

所以每次我都必须重启机器。它装有 Windows Server 2012R2,重启后,我的 Windows Server 上没有出现此问题的任何特定错误

如果你能帮助我,我将非常感激

我将机器的 CPU 升级到 10 核,将内存升级到 20GB,并从 Esxi Vsphere 重新安装了机器的网络适配器,但这并没有产生影响

谢谢

答案1

增加虚拟机中使用的 vCPU/核心数量或分配过多内存都无法解决该错误。主机 CPU 可能存在硬件问题。

很多年前,我遇到了一个主机 CPU 问题,我可以通过强制 vSphere 中的 VM 设置中的核心关联性来缩小问题范围。我发现,在分配特定核心后,该核心会在几秒钟内导致应用程序崩溃。避开该核心后,几周内就不会再出现崩溃。重新启动主机可以一次解决几分钟/几小时/几周的问题,但问题总会再次出现。令人惊讶的是,我发现最敏感的软件是 Folding@Home,我用它来进行老化和负载测试。

坚持认为是硬件错误,我可以让戴尔更换 CPU(问题在一个月后再次出现,但略有不同),甚至更换 CPU 和系统板(问题永远消失了)。真正的原因从未确定,但我怀疑是二级缓存问题。

您的简单应用程序可能很适合在单核上运行,这样可以更轻松地进行故障排除。我会使用克隆的、隔离的 VM,它不介意被破坏。

请注意,我在同一主机上的其他虚拟机中也遇到了一些奇怪的数据问题,这些问题很难检测和诊断。我会认真解决该问题。

相关内容