“rcu_sched 检测到 CPU/任务停顿” - jiffies - ESXi Ubuntu 16 FileServer Guest

“rcu_sched 检测到 CPU/任务停顿” - jiffies - ESXi Ubuntu 16 FileServer Guest

我的 ESXi 主机上有一个非常简单的 Ubuntu 16 x64 VM 设置,它充当文件服务器。它安装了 NFS/SMB 和 MDADM。它已完全更新。

上周它两次因错误“rcu_sched detected stalls on CPUs和 jiffies 不足而挂起。

这次我拍了一个屏幕截图,但情况太糟糕了,ESXi 无法终止虚拟机,并且在重新启动后导致我的 MDADM 阵列重建。我担心这会对我的硬盘造成不必要的损坏,想知道问题出在哪里?该虚拟机获得了大量额外资源,包括 1vCPU 和 4vThreads(6GB RAM)。

有任何想法吗?虚拟机现在已恢复运行,因此我可以调试所需的任何信息。我正在考虑迁移到基于 RHEL 的发行版,但我想找出问题与在不同的 Linux 操作系统上重建的情况。

在此输入图像描述

PS:我是主要用户,据我记得当时没有进行密集的读/写操作。

答案1

太长了;大约一周后,我失去了一个 CPU 核心,可能是由于过热/散热器/风扇放置不当。

  • 如果您使用 ESXi,我会启动另一个操作系统并检查 Temp 和/或考虑重新安装 CPU 散热器。

  • 这篇文章有很多浏览量,当我遇到这个问题时,谷歌给我的信息很少。请在评论或答案中分享您的经验!

时间线:

  • 我收到有关 Jiffies 的错误
  • 必须使用电源按钮重新启动
  • MDADM 阵列重建 --> 成功。
  • 第二天我又收到一个错误
  • 重新启动/重建成功。
  • 又一个错误!
  • 使用新操作系统重建虚拟机
  • 稳定一周左右
  • CPU单核死掉了!

对 ESXi 的进一步研究表明,如果没有某种我没有的高级硬件添加,ESXi 不会收集设备温度(可能是因为我没有使用“硬件兼容性列表”中的计算机。(https://communities.vmware.com/thread/547244)。如果有的话,ESXi 可能会限制我的 CPU。我现在使用 KVM,它通过正常方法检查我所有的设备温度并做出相应反应。不仅如此,我的 RW 速度也大大提高了,因为我的虚拟机管理程序现在也是我的文件服务器,而之前我必须将磁盘传递到文件服务器虚拟机,因为 ESXi 不支持 SMB/NFS/MDADM 等(我说的是现在我的客户直接与虚拟机管理程序/文件服务器对话,RW 速度提高了 2 或 3 倍。

相关内容