如何分析崩溃时的内核恐慌消息来诊断问题？

Question

快速回答：

这看起来与内核错误 #13998（请参阅下面我是如何得出这个结论的），该结论在后来的内核版本中尚未重现。如果是这种情况，请升级到较新的内核（或较新版本的 CentOS，相同的差异），应该解决与模块相关的问题fscache。

fscache问题的线索：

PANIC: "BUG: unable to handle kernel NULL pointer dereference at 000000000000002"

意味着内核试图加载一个没有意义的内存地址。

COMMAND: "kslowd002"

这是内核在发生恐慌时尝试运行的命令。这并不一定意味着这是导致崩溃的命令，但这是一个很好的起点。什么是kslowd？仔细阅读一下这里。

在回溯中：

#9 [ffff880100003dd8] fscache_object_slow_work_execute at ffffffffa0460e9f [fscache]

是之前运行的最后一个过程：

[exception RIP: unknown or invalid address]

这是内核无法取消引用的 NULL 指针，换句话说，内核试图在内存中查找但无法查找的位置，因为它不存在。这是一个已知的错误fscache，显然已在更高版本的内核版本中得到解决。

这里是针对未解决的同一问题的 CentOS-6 特定错误报告 (#0007782)。 CentOS 的建议还包括确保内核是最新的可用版本，在您的情况下，这可能需要升级到 CentOS 的下一个稳定主要版本。

有关阅读这些故障转储的更多信息，我强烈推荐本教程： http://www.dedoimedo.com/computers/crash-analyze.html

Answer 1