LInux:如何诊断/隔离导致“随机”挂起和自发重启的原因?

LInux:如何诊断/隔离导致“随机”挂起和自发重启的原因?

因此,与其猜测原因是什么(尽管我相信是 nvidia 驱动程序的问题),我不如从哪里开始寻找一些事实来查明呢?

我已多次浏览过 /var/log,但其中有大量内容,而我(目前)还无法找出重要的部分。


背景:简短版本

在 Ubuntu Karmic 推出后不久,我就从 WinXP 转移到了 Ubuntu Karmic。

从那时起,我经历了一系列似乎随机崩溃表现为:

  • 自发重启
  • 完全锁定,USB 键盘和鼠标失去响应(直至 LED 全部熄灭)。此外,当发生这种情况时,我通常无法通过 ssh 连接到该盒子。

我已经进行了大量搜索,Nvidia 似乎是主要嫌疑人,但我不知道从哪里开始寻找真正的原因。

有什么建议吗?



背景:长版本

有时,我可以一整个星期都不会发生崩溃,但两天内就会发生五次崩溃。

为了消除可能的嫌疑人,我随着时间的推移做了一些改变,但无济于事:

  • 最初我使用 KVM 进行虚拟化,现在使用 VirtualBox OSE
  • 我在内核中运行 NFS,但现在使用 Samba
  • 我之前使用过 Compiz,但后来关闭了它
  • 我已经将 Karmic 从 64 位升级到 32 位(也出于其他原因)
  • 我尝试过 Ubuntu、Kubuntu 和 Xubuntu。每次都有同样的问题。
  • 我将 Nvidia 驱动程序从版本 185 回退到版本 96(NVIDIA Linux x86 内核模块 96.43.13 Thu Jun 25 18:42:21 PDT 2009)。这似乎减少错误发生的频率。


就当时正在运行的程序而言,情况可能会有所不同。以下程序很常见,但不一定在每次崩溃时都运行:

  • Firefox 3.5
  • 带有 1 或 2 个 Windows XP VM 的 VirtualBox OSE
  • Skype
  • Rhythmbox 或 Exaile


我的硬件已经使用了 2 - 3 年:

  • 酷睿2双核6300
  • 4GB 内存
  • 那个年代的某些英特尔主板
  • 带有 Nvdia GeForce 7300 GS 芯片组的华硕双头显卡
  • 2 个 SATA 硬盘
  • 双显示器(因此我依赖专有的 nvidia 驱动程序)


我一直在关注我的系统更新。

希望上述数据可以促使某人建议值得研究的特定类型的日志或配置。

更新
RAM 看起来不错
根据以下建议将在超级用户上重新发布

答案1

Linux 和其他类 Unix 系统比 Windows 对不稳定的 RAM 更敏感。我会运行 memtest86 并检查 RAM

答案2

这样的问题确实可能是由硬件故障引起的(如果您怀疑是 nvidia 驱动程序,那么可能是显卡出现了硬件错误?)

  • 如果您启用了温度监控(使用传感器小程序/lm_sensors),是否有任何高读数?
  • 您是否做过超频?
  • 您在 Windows 下是否也遇到过奇怪的崩溃/挂起/重启现象?

如果系统挂起,请检查以下事项:

  • 键盘 LED 是否闪烁?据我所知,这表示内核崩溃(即内核崩溃)
  • 您能通过 Ping 访问系统吗?
  • 使用 SysRq 组合键(必须事先启用)查看是否可以从系统获得一些响应
    • http://en.wikipedia.org/wiki/Magic_SysRq_key了解详情
    • 您应该通过在虚拟终端上按 Alt+SysRq+h 来检查该键是否真正启用并正常工作(使用 Ctrl+Alt+F1 切换到那里;使用 Ctrl+Alt+F7 切换回来)
  • 重启后,检查日志文件(/var/log/syslog、/var/log/Xorg.0.log)以获取最新消息

答案3

也许是硬件问题?我遇到过显卡损坏导致电脑死机的情况,内核日志中没有留下任何痕迹。要隔离问题,请尝试使用合成的 LiveCD,或者更好的办法是:玩 3D 游戏 ;-)。请参阅:UL 论坛上的相关帖子

相关内容