(最初发布于服务器故障)
因此,与其猜测原因是什么(尽管我相信是 nvidia 驱动程序的问题),我不如从哪里开始寻找一些事实来查明呢?
我已多次浏览过 /var/log,但其中有大量内容,而我(目前)还无法找出重要的部分。
背景:简短版本
在 Ubuntu Karmic 推出后不久,我就从 WinXP 转移到了 Ubuntu Karmic。
从那时起,我经历了一系列似乎随机崩溃表现为:
- 自发重启
- 完全锁定,USB 键盘和鼠标失去响应(直至 LED 全部熄灭)。此外,当发生这种情况时,我通常无法通过 ssh 连接到该盒子。
我已经进行了大量搜索,Nvidia 似乎是主要嫌疑人,但我不知道从哪里开始寻找真正的原因。
一位 serverfault 用户建议使用 MemtextX86+ 检查 RAM。未发现任何错误。还建议监控显卡温度,我现在正在研究。
除此之外,还有什么建议吗?
背景:长版本
有时,我可以一整个星期都不会发生崩溃,但两天内就会发生五次崩溃。
为了消除可能的嫌疑人,我随着时间的推移做了一些改变,但无济于事:
- 最初我使用 KVM 进行虚拟化,现在使用 VirtualBox OSE
- 我在内核中运行 NFS,但现在使用 Samba
- 我之前使用过 Compiz,但后来关闭了它
- 我已经将 Karmic 从 64 位升级到 32 位(也出于其他原因)
- 我试过 Ubuntu、Kubuntu 和 Xubuntu。每次都是同样的问题(不过最近 Gnome 出现的问题似乎比 XFCE 更频繁)。
- 我将 Nvidia 驱动程序从版本 185 回退到版本 96(NVIDIA Linux x86 内核模块 96.43.13 Thu Jun 25 18:42:21 PDT 2009)。这似乎减少错误发生的频率。
就当时正在运行的程序而言,情况可能会有所不同。以下程序很常见,但不一定在每次崩溃时都运行:
- Firefox 3.5
- 带有 1 或 2 个 Windows XP VM 的 VirtualBox OSE
- Skype
- Rhythmbox 或 Exaile
我的硬件已经使用了 2 - 3 年:
- 酷睿2双核6300
- 4GB 内存
- 那个年代的某些英特尔主板
- 带有 Nvdia GeForce 7300 GS 芯片组的华硕双头显卡
- 2 个 SATA 硬盘
- 双显示器(因此我依赖专有的 nvidia 驱动程序)
我一直在关注我的系统更新。
希望上述数据可以促使某人建议值得研究的特定类型的日志或配置。
更新 1
刚刚发生过一次崩溃,扬声器失灵了。谷歌搜索了一下,似乎 PulseAudio 过去出现过一些问题。目前还不确定这是否相关,但每次发生崩溃时 PulseAudio 都会运行。
更新 2
按照@CarlF 的 Debian Sysadmin Guide 链接,我找到了神奇的 sysrq 键,下次崩溃时我会尝试一下。虽然这不会给我太多关于原因的线索,但至少我希望能够正常关机。
更新 3
lm-sensors 报告我的 GPU 运行温度接近 70C / 158F - 很有趣。如果我不得不猜测的话,我会说这是一个重要的线索。
更新 4
上次更新后不久,我用空气除尘器敲击系统内部 - 最终结果:自此之后只发生过一次崩溃。我将其称为热问题。
答案1
答案2
您可能首先要检查的是启动过程中是否存在硬件问题。启动过程会将内核环形缓冲区中的数据记录到 中/var/log/boot.log
。系统启动后,新消息将刷新到此缓冲区中,您可以使用命令查看其当前状态dmesg
。您还需要调查的一个重要日志是/var/log/messages
。它将包含时间戳、设施以及错误和生成错误的应用程序的优先级。在调试错误时,拥有时间戳是一项无价的资产。
不过,随机死机肯定与硬件有关。尝试重新安装主板上的所有硬件,然后给它一个memtest86+跑步。
答案3
您是否尝试过重新安装内存、处理器和其他芯片?此外,您可能想尝试运行另一个操作系统 (FreeDOS) 以排除一些可能性。
提示一下,您还应该能够通过 Gnome 很好地使用两个显示器,而无需使用 nvidia 驱动程序。