我有一台运行 Linux Mint 17.2(全新安装)的 HP MicroServer N54L。每隔几天,我就会发现机器处于关机状态(实际上是待机 - 不是说它进入了睡眠状态,而是说它没有运行,但有电,可以通过按下电源按钮启动)。
我已在其上运行 memtest86,但无结果。除了以下内容外,我在 kern.log、syslog、dmesg 等中找不到太多有趣的内容:
Aug 1 06:14:16 donbot kernel: [388813.031331] radeon 0000:01:05.0: BAR 6: [??? 0x00000000 flags 0x2] has bogus alignment
Aug 1 06:14:16 donbot kernel: [388813.031346] pci 0000:00:14.4: PCI bridge to [bus 03]
在 kern.log 中,就在断电之前。并且
Aug 1 15:20:35 donbot kernel: [ 3.260404] radeon 0000:01:05.0: registered panic notifier
在重新启动机器时,在 kern.log 中。在安装 Mint 17.2 之前,我的 Mint 16 安装也遇到了同样的断电问题,我尝试过让 linux-crashdump 工作,但无法从中获取任何崩溃转储。
有时,断电似乎发生在我的 snapraid cron 作业正在对我的驱动器进行完整性检查时。这是一个相当密集的过程,但占用的系统内存不会超过 1/3,也不会超过两个 CPU 中的一个。我很确定有些崩溃发生在没有运行任何程序的时候。(我刚刚成功地对所有磁盘进行了 6 小时的 snapraid 清理,没有发生任何意外。但是,我不记得在通过 cron 安排每日 snapraid 运行之前遇到过这个问题。)
该机器大部分时间都在无头模式下运行,因此我不确定 radeon 驱动程序与它有什么关系。(没有安装显卡,这可能是板载显卡。)我安装了 sysstat 以获得更多监控选项。
我相信我刚才亲眼目睹了其中一次崩溃。我在一个 shell 中运行 snapraid,并尝试 more /var/log/sysstat/sa01(我知道这是一个二进制文件)。可能巧合的是,就在我按下 more 命令的回车键时,系统冻结了。
我有点不知所措。这看起来像是硬件问题 - 但正如我提到的,我已经运行了 memtest86,但无法强制出错。(顺便说一下,服务器有 ECC 内存。)
该机器已插入电涌抑制器。该柜子中的其他设备似乎均未自行重置。但是,我注意到,在从该服务器(它直接插入放大器)收听音乐时,我会不时听到短暂的静电噪音。
我该如何尝试进一步追踪此事?