如何从系统崩溃中获取更多信息

Question

DL160？您的机器上有 iLO 吗？从那里，您可以远程控制盒子并重新启动、打开或关闭电源。不过，可能需要高级许可证。iLO 在与主系统板不同的硬件上运行，因此只要服务器插入电源线，它就应该始终可用。iLO 还允许您触发主机的 NMI 重置，以及捕获最后一次致命崩溃，从而进行有限的研究。

您是否也尝试过使用 MemTest86+ 运行大约 8 小时来“烧毁”服务器（假设您可以承受这么长时间的停机时间）？Linux 上的内存错误有时会以一些非常有趣的方式表现出来。Oops 报告引用了一个内存函数（__pagevec_free()），它可能表明存在一个很少被访问的损坏的内存单元，因此崩溃之间会有等待时间。

您是否还检查过您的 BIOS 是否已从 HP 完全更新？

除此之外，编译您自己的内核并启用所有调试符号，并查阅一些关于使用 KGDB 调试内核崩溃的 HOWTO。您可以使用一些技巧在内核崩溃时捕获内核，然后使用 KGDB 查看回溯，并可能追踪有问题的用户空间程序或进一步识别硬件故障。

Answer 1

DL160？您的机器上有 iLO 吗？从那里，您可以远程控制盒子并重新启动、打开或关闭电源。不过，可能需要高级许可证。iLO 在与主系统板不同的硬件上运行，因此只要服务器插入电源线，它就应该始终可用。iLO 还允许您触发主机的 NMI 重置，以及捕获最后一次致命崩溃，从而进行有限的研究。

您是否也尝试过使用 MemTest86+ 运行大约 8 小时来“烧毁”服务器（假设您可以承受这么长时间的停机时间）？Linux 上的内存错误有时会以一些非常有趣的方式表现出来。Oops 报告引用了一个内存函数（__pagevec_free()），它可能表明存在一个很少被访问的损坏的内存单元，因此崩溃之间会有等待时间。

您是否还检查过您的 BIOS 是否已从 HP 完全更新？

除此之外，编译您自己的内核并启用所有调试符号，并查阅一些关于使用 KGDB 调试内核崩溃的 HOWTO。您可以使用一些技巧在内核崩溃时捕获内核，然后使用 KGDB 查看回溯，并可能追踪有问题的用户空间程序或进一步识别硬件故障。

如何从系统崩溃中获取更多信息

答案1

相关内容