调试 Linux 机器死机

Question 1

听起来您的内核以某种方式发生了恐慌，导致 sshd 无法发送服务器密钥。可能是内核被楔入，导致网络堆栈仍然运行，但 vfs 层不可用。

当我在 RHEL4 系统上遇到类似问题时，我设置了netdump 和 netconsole 服务，以及专用的 netdump 和 syslog 服务器来捕获故障转储和内核恐慌信息。我还将 kernel.panic sysctl 设置为 10。这样，当系统发生紧急情况时，您将获得该系统上的内核跟踪和内存副本，您可以使用“崩溃”实用程序对其进行分析。

您当然也会受益于为主机设置串行控制台，这样您就可以看到控制台输出并可能按下神奇的 sysrq 键。另外，如果您愿意设置网络并且您有支持它的硬件，您可以使用 IPMI 远程关闭、开机、重新启动和查询硬件。

（值得一提的是，RHEL5 具有与 kexec/kdump 类似的功能，只是崩溃转储存储在本地）

Answer

听起来您的内核以某种方式发生了恐慌，导致 sshd 无法发送服务器密钥。可能是内核被楔入，导致网络堆栈仍然运行，但 vfs 层不可用。

当我在 RHEL4 系统上遇到类似问题时，我设置了netdump 和 netconsole 服务，以及专用的 netdump 和 syslog 服务器来捕获故障转储和内核恐慌信息。我还将 kernel.panic sysctl 设置为 10。这样，当系统发生紧急情况时，您将获得该系统上的内核跟踪和内存副本，您可以使用“崩溃”实用程序对其进行分析。

您当然也会受益于为主机设置串行控制台，这样您就可以看到控制台输出并可能按下神奇的 sysrq 键。另外，如果您愿意设置网络并且您有支持它的硬件，您可以使用 IPMI 远程关闭、开机、重新启动和查询硬件。

（值得一提的是，RHEL5 具有与 kexec/kdump 类似的功能，只是崩溃转储存储在本地）

Question 2

我敢打赌，你的内存即将耗尽。当系统试图找出从哪里获取一些信息时，它正在慢慢停止。它可能发生得如此之快，以至于您的监控无法捕捉到它。我会加强监控，包括远程记录内存使用情况。还要检查日志中是否有 OOM 消息。

（您甚至可能只想打开一些 ssh 窗口来运行 top。）

Answer

我敢打赌，你的内存即将耗尽。当系统试图找出从哪里获取一些信息时，它正在慢慢停止。它可能发生得如此之快，以至于您的监控无法捕捉到它。我会加强监控，包括远程记录内存使用情况。还要检查日志中是否有 OOM 消息。

（您甚至可能只想打开一些 ssh 窗口来运行 top。）

Question 3

对我来说，这听起来像是系统资源不足，因此无法分配 ssh 服务器端所需的进程。

实际的瓶颈可能会有所不同 - 进程不足或内存不足 - 唯一确定的方法是查看日志和控制台以查看其中是否存在任何内容。您可能想要设置一个预先启动的 ssh 作业场景（每台机器一个），只是为了下次发生时做好准备。

如果是真的不好，那么您可能需要考虑启动另一个带有更多内置命令的 shell，这样您就可以进行更多调查，而不必启动额外的进程，因为这可能是不可能的。另外，“tail -f /var/log/*”可能非常有用。

祝你好运。

Answer