新Linux系统死机故障排除

新Linux系统死机故障排除

我刚刚搭建了一台新计算机并安装了 centos7(基于 RHEL),我还尝试了 mint 17.3(基于 Ubuntu)。安装没有任何问题。操作系统运行平稳,一切都很快几个小时,然后锁定。我可以通过打开 Firefox、Chrome、Timeshift、VMware Workstation、磁盘实用程序等的多个实例来重复该问题,并不断切换我的 3D 桌面,最终它冻结了。我什至无法从另一台计算机上 ssh 进入它。如果我不尝试重复该问题,我可以运行 Firefox 和 2 或 3 个选项卡,但在使用数小时后它会冻结。

在这台机器上时,我总是在终端中运行 top 命令。在最近一次冻结中,排名前 4 位的应用程序的 CPU 百分比分别为 52%、37%、21% 和 10%,RAM 使用率分别为 2.0%、0.8%、0.8% 和 0.4%。每次崩溃时,顶级应用程序都会有所不同,但使用情况大致相同。在环境温度为 21-23°C 的房间中,CPU 温度在 42-47°C 之间(AMD 表示温度良好)。没有什么极端的。

当死机时,系统不会响应 Ctrl+Alt+F1、Ctrl+Alt+Backspace 或 Ctrl+Alt+Del。它也无法通过网络上的另一台计算机通过 ssh 访问...冻结时甚至不会显示在网络上。我很难重新启动才能重新进入。

我尝试过的:
重新安装不同版本的 Linux
重置主板(具有当前的 BIOS 版本)
使用 memtest86 测试 RAM
测试和更换电源
下载并安装专有的 nvidia 驱动程序
查看发表想法

此时,我正在 mint 17.3 中进行所有故障排除并使用以下命令观察输出:

top  

tail -f /var/log/{messages,kernel,dmesg,syslog}

我还能在内核级别做些什么来尝试排除/追踪问题吗?

硬件:
华硕 M5 A97 R2.0 主板
AMD FX 8320 8 核 3.5GHz cpu
Nvidia Geforce GT 730
2x8GB Kingston Hyperx 1866 DDR3 RAM
250GB 三星 SSD 850 EVO
1000Watt 80+Gold 电源(不需要,但具有扩展能力...当前系统瓦数 ~280w 和 EVGA 支持表示,在低瓦数系统中使用高瓦 PS 效率低下,但不是问题。)

答案1

根据 top 的说法,自上次更改以来已经过去了 2 天 1 小时 46 分钟(我进行了更改,重新启动并启动了 top 命令)。它运行着从 virtualbox(安装和运行 Linux guest 虚拟机)到 vmware station(运行 windows 和 Linux mint guest 虚拟机并安装更多 Linux guest 虚拟机)、timeshift、多个浏览器(chrome、带有许多选项卡的 firefox)、切换 3d 立方体桌面、运行 steam 的所有内容等并且系统尚未冻结。通过我一直在做的一些多任务处理,CPU 已经达到了 200% 以上(它是 8 核,所以它可以看到 800%)。

最后的更改是删除显卡的 ubuntu nvidia 驱动程序,并使用其说明直接从 nvidia 站点安装专有驱动程序。我这样做是在发表原始文章之前的最后努力,考虑到我读到的线程数量,说开源驱动程序非常适合这张卡和类似的卡,所以我并没有指望它能够工作。

看来这次是显卡驱动程序的问题。

答案2

我同意 Bruce 的观点,首先,最简单 - 绝不是最快的方法是重新安装 NVidia 驱动程序。假设你正在运行 Mint

sudo apt-get remove --purge nvidia*

然后whereis nvidia

如果仍然出现任何文件,请将其删除。

然后重新安装 nvidia 驱动程序

检查内存问题:

取下除一根棍子之外的所有棍子,重新启动并让计算机运行。更换并检查每一根棍子,一次一根。如果你的棍子不好,你会很容易(但不会很快)发现。

如果问题仍然存在,可以执行多种步骤,但不幸的是,现在您必须开始花钱 - 更换电缆、尝试其他电源等等。

相关内容