对 Linux 服务器重启进行故障排除？

Question 1

这可能是硬件问题；最常见的是 RAM 故障和过热。您可以安装mbmon以监控主板和 CPU 温度；然后运行memtest86+以检查 RAM 和 CPU 缓存。

Answer

这可能是硬件问题；最常见的是 RAM 故障和过热。您可以安装mbmon以监控主板和 CPU 温度；然后运行memtest86+以检查 RAM 和 CPU 缓存。

Question 2

有可能是“内核崩溃”，并且在重新启动之前将内核“oops”消息发送到控制台。内核可以配置为在“崩溃”时重新启动或继续运行。检查：

cat /proc/sys/kernel/panic

如果它不为零，请尝试将 0 放在那里（您可以直接写入文件，通过通常在启动时解析的 /etc/sysctl.conf，或使用实用程序sysctl），这应该会停止重启。如果它已经是 0，那么重启不是由内核崩溃引起的。

Answer

有可能是“内核崩溃”，并且在重新启动之前将内核“oops”消息发送到控制台。内核可以配置为在“崩溃”时重新启动或继续运行。检查：

cat /proc/sys/kernel/panic

如果它不为零，请尝试将 0 放在那里（您可以直接写入文件，通过通常在启动时解析的 /etc/sysctl.conf，或使用实用程序sysctl），这应该会停止重启。如果它已经是 0，那么重启不是由内核崩溃引起的。

Question 3

检查的输出last。查找重新启动。尝试将其与登录者（如果有）和拥有超级用户权限的人联系起来。如果不是用户，则可能存在电源/热量问题或某种类型的内核恐慌导致的问题。尝试逐一排除这些问题。

Answer

检查的输出last。查找重新启动。尝试将其与登录者（如果有）和拥有超级用户权限的人联系起来。如果不是用户，则可能存在电源/热量问题或某种类型的内核恐慌导致的问题。尝试逐一排除这些问题。

相关内容