20.04 随机和频繁重启 - 没有可检测的原因

20.04 随机和频繁重启 - 没有可检测的原因

我们最近部署了一些新硬件,从第一天开始就经历了多次随机重启。实际上我一直在控制台上工作,它毫无预警地重启了。

我们费尽心机尝试排除故障,但目前没有任何进展。这种情况发生在多台设备上,这让我倾向于认为这不是某台设备损坏导致的硬件问题。

一开始我们以为可能是热源,因为这些设备是“在现场”部署的,但重启发生在白天/夜晚的所有时间,而不仅仅是在一天中最热的时候。有时是在半夜,机柜内温度为 50 华氏度,设备以最低负载运行。

不过,这似乎是在 CPU 负载最重的时候。以下是最近的“上次重启”条目:

reboot   system boot  5.4.0-77-generic Sun Aug  1 17:31   still running
reboot   system boot  5.4.0-77-generic Sun Aug  1 15:48   still running
reboot   system boot  5.4.0-77-generic Sun Aug  1 15:32   still running
reboot   system boot  5.4.0-77-generic Sat Jul 31 19:02   still running
reboot   system boot  5.4.0-77-generic Sat Jul 31 17:56   still running
reboot   system boot  5.4.0-77-generic Sat Jul 31 17:30   still running
reboot   system boot  5.4.0-77-generic Sat Jul 31 17:17   still running
reboot   system boot  5.4.0-77-generic Sat Jul 31 16:52   still running
reboot   system boot  5.4.0-77-generic Sat Jul 31 16:40   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 23:13   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 22:37   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 22:05   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 21:42   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 21:24   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 20:53   still running
reboot   system boot  5.4.0-77-generic Fri Jul 30 20:42   still running

dmesg 没有显示任何与重启相关的有用信息。我们整天都在查看 /var/log/kern.log 和 syslog.log,但在重启之前没有添加任何内容。

我们认为这可能与热量有关,我们在它们最有可能重新启动的时候进行了“监视-n 1 个传感器”,虽然 CPU 很“热”,但它仍然低于高限,比关键限值低 20-30 摄氏度,据我所知,这是它会关闭/重新启动的状态。

下一步我们可以尝试什么来找出这些重启的原因?

谢谢。

相关内容