如何诊断多个Linux系统故障?

如何诊断多个Linux系统故障?

我的 Linux 机器遇到了几个主要问题:Kubuntu 13.10(最近全新安装)、MSI 主板(AMD Phenom II X3 720;8G RAM)、NVidia GeForce GT 630 显卡(使用内核模块 319.60)。大约 3 个月前更换了主板——当地一家“维修”店在“诊断”结果为软件问题时烧坏了原来的主板。CPU、RAM 和显卡测试结果都很好,所以它们都装在了新的主板上。

问题大约在 6-8 周前开始出现,只是偶尔出现一些小问题,我一开始都尝试单独解决它们。

  1. 有时,应用程序窗口会挂起,显示的只是一片灰色的屏幕:所有窗口装饰都消失了。我通过关闭 kwin 桌面效果解决了这个问题,这时我看到一条消息闪过,如下所示:

    kwin 桌面效果重新启动...由于图形重置

  2. tar 备份在过去三周内未能完成:首先是“crc 验证错误”,然后是系统挂起,最后是 gzip 挂起。

  3. 大量 dmesg 消息,例如:“BUG:CPU#2:tar 中的软锁定”。研究了这个问题之后,我不确定这到底是不是一个错误……只是 tar/gzip CPU 使用率过高?

  4. Google Chrome 随机频繁地使标签页崩溃,并显示“哎呀,崩溃了”消息。Google Enterprise 团队认为这是 V8 引擎错误,但也暗示了硬件问题。

我正在尝试了解哪里出了问题以及如何诊断和解决问题。我猜是硬件问题?如果是这样,哪个组件最有可能导致问题,我该如何隔离它?我将根据此处的另一篇文章运行 memtest86+。

答案1

像这样的间歇性问题很难诊断,但确实像是硬件问题。

memtest86+ 是个好主意。另外,您是否在监控 CPU 和其他主板的温度?我相信过热会导致间歇性故障,就像您看到的那样。更换主板时,散热器可能没有很好地重新连接到 CPU(或芯片组)。一个便宜的尝试方法是更换 CPU 和散热器之间的热界面层。

如果这不起作用,那么你可能不得不开始更换硬件组件以排除每个问题。如果你有备用显卡,就从显卡开始,但听起来好像你的多个系统都出现了故障,这表明主板有问题。抱歉。

答案2

内存不好!所有这些症状显然都是由内存不好引起的。Memtest86+ 在 5 个位置(8Gigs,2x4)报告了错误。更换新内存后,Memtest86+ 运行了两次完整测试,没有任何问题。现在已运行超过 12 小时,Chrome 没有任何问题,tar 备份运行良好,并已验证。

我了解到:有多种症状?测试记忆。

相关内容