Linux 崩溃似乎是由于硬件相关故障,但日志中没有任何内容。如何排除故障?

Linux 崩溃似乎是由于硬件相关故障,但日志中没有任何内容。如何排除故障?

我有一台配备 NVIDIA GF119 [Quadro NVS 4200M] 显卡和 SAMSUNG SSD PM810 2.5" 256GB(固件 AXM06D1Q)硬盘的戴尔 Latitude E6520。

偶尔(以前是几个月一次,现在更像是一周一两次)它会崩溃,笔记本电脑仍然通电,但显示屏仍然显示我的桌面冻结(鼠标不动,系统监视器小程序中的滚动图表不动)。我无法远程 SSH 进入笔记本电脑。我唯一能做的就是关闭电源(按住电源按钮)。

日志中总是没有任何内容。一切运行正常,出现正常的操作消息,然后什么都没有,直到我重新启动时才出现正常的启动消息。

我尝试过两个不同的发行版,它们带有不同的内核,所以不认为它与软件有关。

我该如何开始排除此类故障?可能是硬盘问题?还是 RAM 问题?


更新日期 2012-07-14

设置一个后台作业,每 0.1 秒将 dmesg 输出转储到日志中,以捕获任何可能未被记录的 dmesg 输出。

昨晚在笔记本电脑上工作到凌晨 2 点左右,然后出去了一整天,今天下午 5 点回到笔记本电脑上发现它被锁定了。不幸的是,dmesg 中没有找到可能的原因:

kern  :info  : [Fri Jul 13 08:53:13 2012] usb 2-1.2: new full-speed USB device number 4 using ehci_hcd
kern  :err   : [Fri Jul 13 08:53:13 2012] usb 2-1.2: device descriptor read/64, error -32
kern  :err   : [Fri Jul 13 08:53:13 2012] hub 2-1:1.0: unable to enumerate USB device on port 2
kern  :info  : [Fri Jul 13 08:53:14 2012] usb 2-1.2: new high-speed USB device number 5 using ehci_hcd
kern  :info  : [Fri Jul 13 08:53:14 2012] Initializing USB Mass Storage driver...
kern  :info  : [Fri Jul 13 08:53:14 2012] scsi6 : usb-storage 2-1.2:1.0
kern  :info  : [Fri Jul 13 08:53:14 2012] usbcore: registered new interface driver usb-storage
kern  :info  : [Fri Jul 13 08:53:14 2012] USB Mass Storage support registered.
kern  :notice: [Fri Jul 13 08:53:15 2012] scsi 6:0:0:0: Direct-Access     Motorola A955             0001 PQ: 0 ANSI: 2
kern  :notice: [Fri Jul 13 08:53:15 2012] scsi 6:0:0:1: CD-ROM            Motorola A955             0001 PQ: 0 ANSI: 2
kern  :notice: [Fri Jul 13 08:53:15 2012] sd 6:0:0:0: Attached scsi generic sg2 type 0
kern  :warn  : [Fri Jul 13 08:53:15 2012] sr1: scsi3-mmc drive: 0x/0x caddy
kern  :debug : [Fri Jul 13 08:53:15 2012] sr 6:0:0:1: Attached scsi CD-ROM sr1
kern  :notice: [Fri Jul 13 08:53:15 2012] sr 6:0:0:1: Attached scsi generic sg3 type 5
kern  :notice: [Fri Jul 13 08:53:15 2012] sd 6:0:0:0: [sdb] Attached SCSI removable disk
kern  :info  : [Fri Jul 13 11:34:42 2012] usb 2-1.2: USB disconnect, device number 5

:-(

答案1

我想我会尝试一下。在这种情况下,我总是喜欢先测试所有组件(RAM、HD、电源、坏帽等),因为这样可以节省大量时间和精力。基本上,这组步骤是覆盖基础的好方法,这样您以后就不会因为错过某些东西而撞墙。

检查计算机是否有任何明显的故障迹象。电容器漏液、风扇损坏、连接器烧坏、组件过热、显卡损坏,任何可见的迹象通常都是第一步。

接下来,您可以使用各种可启动磁盘实用程序来测试各种硬件的健康状况。我喜欢使用一种简单但有效的工具来检查硬盘健康状况驾驶体能测试。此工具将主要检查驱动器中的坏扇区,并在此过程中执行许多其他检查。

另一个简单的测试是检测 RAM 故障,例如Memtest86+

答案2

您可以将 syslogd 的输出重定向到网络中的另一个 syslogd。请参阅http://linux.die.net/man/5/syslog.conf*.* @finlandia将所有内容发送到远程 syslogd 的示例。

相关内容