诊断 Linux 上的硬锁定

诊断 Linux 上的硬锁定

在过去的一个月里,我的一台 Debian Squeeze (Linux 2.6.32-bpo.5-amd64) 机器确实锁定了两次,难的. ARP 无响应,控制台暗淡,Caps Lock、Num Lock 不起作用,魔法 SysRq无效。将内核从反向移植更改为 3.2.0-0.bpo.2-amd64 也无济于事。

温度和负载监测在崩溃前没有显示任何峰值。

我应该如何诊断和调试此类问题?

网络控制台我唯一的赌注?

编辑: 我已经禁用屏幕消隐功能:

#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0

setterm -blank 0

在物理控制台上。

更新:

这次它锁定了,屏幕仍然显示登录提示。自从上次出现问题以来,我已经使用 BOINC(Prime 95)测试运行了 6 小时的负载测试,没有任何问题。

答案1

我找到了两种可能的解决方案,如果它们有效我会报告。编辑:他们没有

首先是nmi_watchdognmi_watchdog=1通过添加内核启动参数来启用。

第二个(感谢@womble 的建议)是强制ECC

modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1

不幸的是,2.6.32-bpo.5-amd64(Debian squeeze)内核不支持 ECC DDR3 内存,我不得不使用从反向移植的 3.2。

我还将这些选项添加到常规内核参数中:

echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf

答案2

由于死机越来越频繁,问题可能是由主板故障引起的,或者不太可能是 CPU 故障。更换这些组件后,问题就解决了。

相关内容