在过去的一个月里,我的一台 Debian Squeeze (Linux 2.6.32-bpo.5-amd64) 机器确实锁定了两次,难的. ARP 无响应,控制台暗淡,Caps Lock、Num Lock 不起作用,魔法 SysRq无效。将内核从反向移植更改为 3.2.0-0.bpo.2-amd64 也无济于事。
温度和负载监测在崩溃前没有显示任何峰值。
我应该如何诊断和调试此类问题?
是网络控制台我唯一的赌注?
编辑: 我已经禁用屏幕消隐功能:
#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0
和
setterm -blank 0
在物理控制台上。
更新:
这次它锁定了,屏幕仍然显示登录提示。自从上次出现问题以来,我已经使用 BOINC(Prime 95)测试运行了 6 小时的负载测试,没有任何问题。
答案1
我找到了两种可能的解决方案,如果它们有效我会报告。编辑:他们没有
首先是nmi_watchdognmi_watchdog=1
通过添加内核启动参数来启用。
第二个(感谢@womble 的建议)是强制ECC在
modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1
不幸的是,2.6.32-bpo.5-amd64(Debian squeeze)内核不支持 ECC DDR3 内存,我不得不使用从反向移植的 3.2。
我还将这些选项添加到常规内核参数中:
echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf
答案2
由于死机越来越频繁,问题可能是由主板故障引起的,或者不太可能是 CPU 故障。更换这些组件后,问题就解决了。