因此,与其猜测原因是什么(尽管我相信是 nvidia 驱动程序的问题),我不如从哪里开始寻找一些事实来查明呢?
我已多次浏览过 /var/log,但其中有大量内容,而我(目前)还无法找出重要的部分。
背景:简短版本
在 Ubuntu Karmic 推出后不久,我就从 WinXP 转移到了 Ubuntu Karmic。
从那时起,我经历了一系列似乎随机崩溃表现为:
- 自发重启
- 完全锁定,USB 键盘和鼠标失去响应(直至 LED 全部熄灭)。此外,当发生这种情况时,我通常无法通过 ssh 连接到该盒子。
我已经进行了大量搜索,Nvidia 似乎是主要嫌疑人,但我不知道从哪里开始寻找真正的原因。
有什么建议吗?
背景:长版本
有时,我可以一整个星期都不会发生崩溃,但两天内就会发生五次崩溃。
为了消除可能的嫌疑人,我随着时间的推移做了一些改变,但无济于事:
- 最初我使用 KVM 进行虚拟化,现在使用 VirtualBox OSE
- 我在内核中运行 NFS,但现在使用 Samba
- 我之前使用过 Compiz,但后来关闭了它
- 我已经将 Karmic 从 64 位升级到 32 位(也出于其他原因)
- 我尝试过 Ubuntu、Kubuntu 和 Xubuntu。每次都有同样的问题。
- 我将 Nvidia 驱动程序从版本 185 回退到版本 96(NVIDIA Linux x86 内核模块 96.43.13 Thu Jun 25 18:42:21 PDT 2009)。这似乎减少错误发生的频率。
就当时正在运行的程序而言,情况可能会有所不同。以下程序很常见,但不一定在每次崩溃时都运行:
- Firefox 3.5
- 带有 1 或 2 个 Windows XP VM 的 VirtualBox OSE
- Skype
- Rhythmbox 或 Exaile
我的硬件已经使用了 2 - 3 年:
- 酷睿2双核6300
- 4GB 内存
- 那个年代的某些英特尔主板
- 带有 Nvdia GeForce 7300 GS 芯片组的华硕双头显卡
- 2 个 SATA 硬盘
- 双显示器(因此我依赖专有的 nvidia 驱动程序)
我一直在关注我的系统更新。
希望上述数据可以促使某人建议值得研究的特定类型的日志或配置。
更新
RAM 看起来不错
根据以下建议将在超级用户上重新发布
答案1
Linux 和其他类 Unix 系统比 Windows 对不稳定的 RAM 更敏感。我会运行 memtest86 并检查 RAM
答案2
这样的问题确实可能是由硬件故障引起的(如果您怀疑是 nvidia 驱动程序,那么可能是显卡出现了硬件错误?)
- 如果您启用了温度监控(使用传感器小程序/lm_sensors),是否有任何高读数?
- 您是否做过超频?
- 您在 Windows 下是否也遇到过奇怪的崩溃/挂起/重启现象?
如果系统挂起,请检查以下事项:
- 键盘 LED 是否闪烁?据我所知,这表示内核崩溃(即内核崩溃)
- 您能通过 Ping 访问系统吗?
- 使用 SysRq 组合键(必须事先启用)查看是否可以从系统获得一些响应
- 看http://en.wikipedia.org/wiki/Magic_SysRq_key了解详情
- 您应该通过在虚拟终端上按 Alt+SysRq+h 来检查该键是否真正启用并正常工作(使用 Ctrl+Alt+F1 切换到那里;使用 Ctrl+Alt+F7 切换回来)
- 重启后,检查日志文件(/var/log/syslog、/var/log/Xorg.0.log)以获取最新消息
答案3
也许是硬件问题?我遇到过显卡损坏导致电脑死机的情况,内核日志中没有留下任何痕迹。要隔离问题,请尝试使用合成的 LiveCD,或者更好的办法是:玩 3D 游戏 ;-)。请参阅:UL 论坛上的相关帖子