什么原因会导致 Redhat 4 上的内核挂起？

Question 1

首先，虽然 RHEL 4 本身已经相当老了，但它仍然在维护，你可以尝试用最新的补丁进行更新（参见维基信息）。

内核崩溃/挂起可能由多种原因引起。我遇到的原因主要是

内存问题：安装（例如） CD 上的 Ubuntu 版本，然后在其上启动并运行memtest86+，它会主动检查内存（可能需要一些时间才能发现问题）。
硬件问题：导致意外中断，使系统陷入无法恢复的境地、使内核执行进入“空间”、破坏堆栈……
模块问题：不合适的模块（例如与硬件不完全匹配的模块或有缺陷的模块）具有特权访问权限，可能会挂起系统。较旧的内核尤其容易受到威胁（较新的版本可以更好地恢复有缺陷的模块问题）。

还见过神秘的（旧）系统挂起，原因是

主板 CMOS 电池没电了（换一个吧，很便宜）。
网线损坏

也许是升级到新系统的正确时机（例如，现在拥有安装有 Ubuntu 10.04.1 LTS 的服务器并没有什么问题）。

Answer

首先，虽然 RHEL 4 本身已经相当老了，但它仍然在维护，你可以尝试用最新的补丁进行更新（参见维基信息）。

内核崩溃/挂起可能由多种原因引起。我遇到的原因主要是

内存问题：安装（例如） CD 上的 Ubuntu 版本，然后在其上启动并运行memtest86+，它会主动检查内存（可能需要一些时间才能发现问题）。
硬件问题：导致意外中断，使系统陷入无法恢复的境地、使内核执行进入“空间”、破坏堆栈……
模块问题：不合适的模块（例如与硬件不完全匹配的模块或有缺陷的模块）具有特权访问权限，可能会挂起系统。较旧的内核尤其容易受到威胁（较新的版本可以更好地恢复有缺陷的模块问题）。

还见过神秘的（旧）系统挂起，原因是

主板 CMOS 电池没电了（换一个吧，很便宜）。
网线损坏

也许是升级到新系统的正确时机（例如，现在拥有安装有 Ubuntu 10.04.1 LTS 的服务器并没有什么问题）。

Question 2

RHEL 4 机器（或任何机器）有无数种挂起方式。您需要收集更多信息。我会从挂起时的日志开始。您还可以设置 NMI 监视程序，以便在机器挂起于内核时强制机器崩溃，并设置 netconsole 以记录发生这种情况时的控制台消息。如果系统在重负载下死机，并且在内核本身没有完全挂起的情况下变得无响应，您可以设置 hangwatch 来触发各种诊断消息（转储到日志或通过 netconsole），或者甚至在达到特定负载阈值时重新启动机器。

Answer

RHEL 4 机器（或任何机器）有无数种挂起方式。您需要收集更多信息。我会从挂起时的日志开始。您还可以设置 NMI 监视程序，以便在机器挂起于内核时强制机器崩溃，并设置 netconsole 以记录发生这种情况时的控制台消息。如果系统在重负载下死机，并且在内核本身没有完全挂起的情况下变得无响应，您可以设置 hangwatch 来触发各种诊断消息（转储到日志或通过 netconsole），或者甚至在达到特定负载阈值时重新启动机器。

什么原因会导致 Redhat 4 上的内核挂起？

答案1

答案2

相关内容