Gentoo 无头服务器突然挂起，需要重新启动才能恢复

Question 1

您可能想要尝试在服务器上配置某种日志记录过程，以便当网络连接断开时，您可以判断服务器是否仍然处于活动状态。这可以是简单的 cron 作业，其中包含wget远程 URL（然后您可以监视其流量日志），也可以是设置远程 syslog 服务器，用于捕获来自该框的所有日志流量。

您还可以使用 cron 安排重新启动网络系统（/etc/init.d/net.eth0 restart大约每小时一次）；这样，如果您由于网络接口出现某些问题而丢失连接，则可以通过重新启动来解决问题，而无需弹出整个框。

不过，我接下来要做的事情如下：

在桌面上设置一个 cron 作业，每分钟 ping 一次盒子，这样当它停止响应时，您就能立即知道。（也许让它在每次 ping 时都输出到带有时间戳的日志中，这样您就不必将其记录在其他地方。）
等十分钟。
去重启服务器。
连接到服务器并查看 /var/log/messages（实际上是整个 /var/log），看看在服务器停止响应和重新启动之间是否发生了任何事情。

如果网络连接中断时日志消息也停止，则可能是内核崩溃了，您可以为此启用额外的日志记录以找出原因。如果网络连接中断后日志消息继续，则可能是其他原因造成的。（在这种情况下，我会怀疑网卡有问题或驱动程序有问题，但这只是我个人的看法。）您可以编写一套小型网络诊断程序，ifconfig/ traceroute/等，然后将其从 cron 运行到日志文件中；然后，当您有网络不活动的时间范围时，您可以检查日志以查看当时机器正在查看什么。

更新：由于问题似乎是内核完全崩溃，因此我接下来要尝试设置lm_传感器并每分钟将命令的输出写入sensors日志。这样，您将能够看到温度是否有任何快速或逐渐的变化，这些变化往往与恐慌有关。

Answer

您可能想要尝试在服务器上配置某种日志记录过程，以便当网络连接断开时，您可以判断服务器是否仍然处于活动状态。这可以是简单的 cron 作业，其中包含wget远程 URL（然后您可以监视其流量日志），也可以是设置远程 syslog 服务器，用于捕获来自该框的所有日志流量。

您还可以使用 cron 安排重新启动网络系统（/etc/init.d/net.eth0 restart大约每小时一次）；这样，如果您由于网络接口出现某些问题而丢失连接，则可以通过重新启动来解决问题，而无需弹出整个框。

不过，我接下来要做的事情如下：

在桌面上设置一个 cron 作业，每分钟 ping 一次盒子，这样当它停止响应时，您就能立即知道。（也许让它在每次 ping 时都输出到带有时间戳的日志中，这样您就不必将其记录在其他地方。）
等十分钟。
去重启服务器。
连接到服务器并查看 /var/log/messages（实际上是整个 /var/log），看看在服务器停止响应和重新启动之间是否发生了任何事情。

如果网络连接中断时日志消息也停止，则可能是内核崩溃了，您可以为此启用额外的日志记录以找出原因。如果网络连接中断后日志消息继续，则可能是其他原因造成的。（在这种情况下，我会怀疑网卡有问题或驱动程序有问题，但这只是我个人的看法。）您可以编写一套小型网络诊断程序，ifconfig/ traceroute/等，然后将其从 cron 运行到日志文件中；然后，当您有网络不活动的时间范围时，您可以检查日志以查看当时机器正在查看什么。

更新：由于问题似乎是内核完全崩溃，因此我接下来要尝试设置lm_传感器并每分钟将命令的输出写入sensors日志。这样，您将能够看到温度是否有任何快速或逐渐的变化，这些变化往往与恐慌有关。

Question 2

从集体更新来看，这种情况可能会朝着两种方向发展：

硬盘问题
RAM 问题

要尝试的测试：

硬盘测试（只读、读/写）
内存测试

Answer

从集体更新来看，这种情况可能会朝着两种方向发展：

硬盘问题
RAM 问题

要尝试的测试：

硬盘测试（只读、读/写）
内存测试

Question 3

如果尚未考虑，您可以尝试切换到或同时使用第二个 NIC。这将有助于识别或消除主 NIC 和/或其相关电缆、硬件等。

Answer

如果尚未考虑，您可以尝试切换到或同时使用第二个 NIC。这将有助于识别或消除主 NIC 和/或其相关电缆、硬件等。

Question 4

不确定这应该是一个答案还是一个评论。

你的描述有点像https://bugs.gentoo.org/show_bug.cgi?id=359671。尽管情况的某些参数似乎有所不同，尤其是您甚至没有连接到 realtek 的电缆，但我猜这仍然可能与 realtek 驱动程序的不稳定有关，在这里提出这个想法可能是值得的。

因此，请尝试将 realtek 模块列入黑名单。

Answer

不确定这应该是一个答案还是一个评论。

你的描述有点像https://bugs.gentoo.org/show_bug.cgi?id=359671。尽管情况的某些参数似乎有所不同，尤其是您甚至没有连接到 realtek 的电缆，但我猜这仍然可能与 realtek 驱动程序的不稳定有关，在这里提出这个想法可能是值得的。

因此，请尝试将 realtek 模块列入黑名单。

Gentoo 无头服务器突然挂起，需要重新启动才能恢复

更新：

更新 2：

更新 3：

更新 4：

更新 5：

更新 6：

答案1

答案2

答案3

答案4

相关内容