我们最近部署了一些新硬件,从第一天开始就经历了多次随机重启。实际上我一直在控制台上工作,它毫无预警地重启了。
我们费尽心机尝试排除故障,但目前没有任何进展。这种情况发生在多台设备上,这让我倾向于认为这不是某台设备损坏导致的硬件问题。
一开始我们以为可能是热源,因为这些设备是“在现场”部署的,但重启发生在白天/夜晚的所有时间,而不仅仅是在一天中最热的时候。有时是在半夜,机柜内温度为 50 华氏度,设备以最低负载运行。
不过,这似乎是在 CPU 负载最重的时候。以下是最近的“上次重启”条目:
reboot system boot 5.4.0-77-generic Sun Aug 1 17:31 still running
reboot system boot 5.4.0-77-generic Sun Aug 1 15:48 still running
reboot system boot 5.4.0-77-generic Sun Aug 1 15:32 still running
reboot system boot 5.4.0-77-generic Sat Jul 31 19:02 still running
reboot system boot 5.4.0-77-generic Sat Jul 31 17:56 still running
reboot system boot 5.4.0-77-generic Sat Jul 31 17:30 still running
reboot system boot 5.4.0-77-generic Sat Jul 31 17:17 still running
reboot system boot 5.4.0-77-generic Sat Jul 31 16:52 still running
reboot system boot 5.4.0-77-generic Sat Jul 31 16:40 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 23:13 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 22:37 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 22:05 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 21:42 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 21:24 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 20:53 still running
reboot system boot 5.4.0-77-generic Fri Jul 30 20:42 still running
dmesg 没有显示任何与重启相关的有用信息。我们整天都在查看 /var/log/kern.log 和 syslog.log,但在重启之前没有添加任何内容。
我们认为这可能与热量有关,我们在它们最有可能重新启动的时候进行了“监视-n 1 个传感器”,虽然 CPU 很“热”,但它仍然低于高限,比关键限值低 20-30 摄氏度,据我所知,这是它会关闭/重新启动的状态。
下一步我们可以尝试什么来找出这些重启的原因?
谢谢。