我的 ESXi 主机上有一个非常简单的 Ubuntu 16 x64 VM 设置,它充当文件服务器。它安装了 NFS/SMB 和 MDADM。它已完全更新。
上周它两次因错误“rcu_sched detected stalls on CPUs
和 jiffies 不足而挂起。
这次我拍了一个屏幕截图,但情况太糟糕了,ESXi 无法终止虚拟机,并且在重新启动后导致我的 MDADM 阵列重建。我担心这会对我的硬盘造成不必要的损坏,想知道问题出在哪里?该虚拟机获得了大量额外资源,包括 1vCPU 和 4vThreads(6GB RAM)。
有任何想法吗?虚拟机现在已恢复运行,因此我可以调试所需的任何信息。我正在考虑迁移到基于 RHEL 的发行版,但我想找出问题与在不同的 Linux 操作系统上重建的情况。
PS:我是主要用户,据我记得当时没有进行密集的读/写操作。
答案1
太长了;大约一周后,我失去了一个 CPU 核心,可能是由于过热/散热器/风扇放置不当。
如果您使用 ESXi,我会启动另一个操作系统并检查 Temp 和/或考虑重新安装 CPU 散热器。
这篇文章有很多浏览量,当我遇到这个问题时,谷歌给我的信息很少。请在评论或答案中分享您的经验!
时间线:
- 我收到有关 Jiffies 的错误
- 必须使用电源按钮重新启动
- MDADM 阵列重建 --> 成功。
- 第二天我又收到一个错误
- 重新启动/重建成功。
- 又一个错误!
- 使用新操作系统重建虚拟机
- 稳定一周左右
- CPU单核死掉了!
对 ESXi 的进一步研究表明,如果没有某种我没有的高级硬件添加,ESXi 不会收集设备温度(可能是因为我没有使用“硬件兼容性列表”中的计算机。(https://communities.vmware.com/thread/547244)。如果有的话,ESXi 可能会限制我的 CPU。我现在使用 KVM,它通过正常方法检查我所有的设备温度并做出相应反应。不仅如此,我的 RW 速度也大大提高了,因为我的虚拟机管理程序现在也是我的文件服务器,而之前我必须将磁盘传递到文件服务器虚拟机,因为 ESXi 不支持 SMB/NFS/MDADM 等(我说的是现在我的客户直接与虚拟机管理程序/文件服务器对话,RW 速度提高了 2 或 3 倍。