LInux:如何诊断/隔离导致“随机”挂起和自发重启的原因?

LInux:如何诊断/隔离导致“随机”挂起和自发重启的原因?

(最初发布于服务器故障

因此,与其猜测原因是什么(尽管我相信是 nvidia 驱动程序的问题),我不如从哪里开始寻找一些事实来查明呢?

我已多次浏览过 /var/log,但其中有大量内容,而我(目前)还无法找出重要的部分。


背景:简短版本

在 Ubuntu Karmic 推出后不久,我就从 WinXP 转移到了 Ubuntu Karmic。

从那时起,我经历了一系列似乎随机崩溃表现为:

  • 自发重启
  • 完全锁定,USB 键盘和鼠标失去响应(直至 LED 全部熄灭)。此外,当发生这种情况时,我通常无法通过 ssh 连接到该盒子。

我已经进行了大量搜索,Nvidia 似乎是主要嫌疑人,但我不知道从哪里开始寻找真正的原因。

一位 serverfault 用户建议使用 MemtextX86+ 检查 RAM。未发现任何错误。还建议监控显卡温度,我现在正在研究。

除此之外,还有什么建议吗?



背景:长版本

有时,我可以一整个星期都不会发生崩溃,但两天内就会发生五次崩溃。

为了消除可能的嫌疑人,我随着时间的推移做了一些改变,但无济于事:

  • 最初我使用 KVM 进行虚拟化,现在使用 VirtualBox OSE
  • 我在内核中运行 NFS,但现在使用 Samba
  • 我之前使用过 Compiz,但后来关闭了它
  • 我已经将 Karmic 从 64 位升级到 32 位(也出于其他原因)
  • 我试过 Ubuntu、Kubuntu 和 Xubuntu。每次都是同样的问题(不过最近 Gnome 出现的问题似乎比 XFCE 更频繁)。
  • 我将 Nvidia 驱动程序从版本 185 回退到版本 96(NVIDIA Linux x86 内核模块 96.43.13 Thu Jun 25 18:42:21 PDT 2009)。这似乎减少错误发生的频率。


就当时正在运行的程序而言,情况可能会有所不同。以下程序很常见,但不一定在每次崩溃时都运行:

  • Firefox 3.5
  • 带有 1 或 2 个 Windows XP VM 的 VirtualBox OSE
  • Skype
  • Rhythmbox 或 Exaile


我的硬件已经使用了 2 - 3 年:

  • 酷睿2双核6300
  • 4GB 内存
  • 那个年代的某些英特尔主板
  • 带有 Nvdia GeForce 7300 GS 芯片组的华硕双头显卡
  • 2 个 SATA 硬盘
  • 双显示器(因此我依赖专有的 nvidia 驱动程序)


我一直在关注我的系统更新。

希望上述数据可以促使某人建议值得研究的特定类型的日志或配置。


更新 1

刚刚发生过一次崩溃,扬声器失灵了。谷歌搜索了一下,似乎 PulseAudio 过去出现过一些问题。目前还不确定这是否相关,但每次发生崩溃时 PulseAudio 都会运行。


更新 2

按照@CarlF 的 Debian Sysadmin Guide 链接,我找到了神奇的 sysrq 键,下次崩溃时我会尝试一下。虽然这不会给我太多关于原因的线索,但至少我希望能够正常关机。


更新 3

lm-sensors 报告我的 GPU 运行温度接近 70C / 158F - 很有趣。如果我不得不猜测的话,我会说这是一个重要的线索。


更新 4

上次更新后不久,我用空气除尘器敲击系统内部 - 最终结果:自此之后只发生过一次崩溃。我将其称为热问题。

答案1

答案2

您可能首先要检查的是启动过程中是否存在硬件问题。启动过程会将内核环形缓冲区中的数据记录到 中/var/log/boot.log。系统启动后,新消息将刷新到此缓冲区中,您可以使用命令查看其当前状态dmesg。您还需要调查的一个重要日志是/var/log/messages。它将包含时间戳、设施以及错误和生成错误的应用程序的优先级。在调试错误时,拥有时间戳是一项无价的资产。

不过,随机死机肯定与硬件有关。尝试重新安装主板上的所有硬件,然后给它一个memtest86+跑步。

答案3

您是否尝试过重新安装内存、处理器和其他芯片?此外,您可能想尝试运行另一个操作系统 (FreeDOS) 以排除一些可能性。

提示一下,您还应该能够通过 Gnome 很好地使用两个显示器,而无需使用 nvidia 驱动程序。

相关内容