调试“残酷”系统挂起(不再响应 Alt+SysRq+B)

调试“残酷”系统挂起(不再响应 Alt+SysRq+B)

我遇到了一系列系统挂起,我希望获得故障转储以至少获得一些线索,但正常的“magic sysrq”功能也被破坏了;甚至立即重启键也不起作用。键盘状态 LED(Caps Lock 等)不再切换。唯一有效的方法是按住电脑上的电源按钮。

下面有更多背景知识,但我的一般问题是调试此类挂起的下一步是什么,即我如何至少获得一个调用堆栈(假设罪魁祸首仍在运行),最好是一个针对此类挂起的工作(迷你)调试器无反应状态?

详细信息:它是一台台式电脑 (Dell OptiPlex 7010),运行相当新的操作系统 [库存 LinuxMint 16,内核 3.11.0-12-generic],带有 PS/2 键盘。它有一个串行端口,但不幸的是我没有另一台机器+空调制解调器电缆可以方便地尝试用于内核控制台。我(天真地)怀疑如果 Alt-SysRq 不起作用,那么尝试切换桌面、使用 netconsole 等将是徒劳的。

另外作为补充信息(可能不相关),挂起是由于使用 fscache 针对过载的 CIFS 网络挂载而导致的。缓存正在工作(/proc/fs/fscache/stats 显示发生了命中,因此配置并非完全错误),但存在这种周期性的“残酷挂起”。内核日志确实有暗示性条目:

FS-Cache:Cookie 类型 CIFS.uniqueid 多次标记页 0

至少对于一些挂起。内存测试正常,挂起和使用 fscache 之间的相关性非常可靠,所以我怀疑这是一个通用的硬件问题(RAM、温度、宇宙射线......)

相关内容