Ubuntu 16.04.02 上随机系统崩溃

Ubuntu 16.04.02 上随机系统崩溃

上周,我在一台 i7 Sandy Bridge Nvidia + Intel(Optimus 显卡)笔记本电脑上重新安装了全新的 Ubuntu 16.04.02,之前安装时规格与此相同,没有任何问题。

从那时起,我在启用或禁用 Nvidia GPU 的情况下编写电子邮件、编辑照片等时会遇到随机系统崩溃(这里没有模式)。系统停止工作,没有错误消息,没有输入,没有可用的控制台,显示器冻结,CPU 越来越热(根据风扇转速猜测),直到我手动关闭计算机。

删除所有 Nvidia 软件包似乎可以解决问题,因此我怀疑 Nvidia 驱动程序应该对此负责。在/var/log/syslog我的系统中,这行代码出现了很多次:

nvidia-modeset: ERROR: GPU:0: Failed to query display engine channel state: 0x0000857d:0:0:0x00000033

nvidia-367.57从 Ubuntu 存储库、xserver-xorg-hwe-16.04堆栈和linux-generic-hwe-16.04内核 (linux-4.8.0.39.10) 运行驱动程序。驱动程序也一样nvidia-375,甚至更糟nvidia-378。但同样,由于这种情况不可重复,所以可能只是运气不好。

syslog以下是崩溃前的最后几行:

Feb 23 10:51:02 ouranos anacron[1277]: Job `cron.weekly' started
Feb 23 10:51:02 ouranos anacron[3472]: Updated timestamp for job `cron.weekly' to 2017-02-23
Feb 23 10:56:02 ouranos systemd[1]: Starting Cleanup of Temporary Directories...
Feb 23 10:56:02 ouranos systemd-tmpfiles[3506]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Feb 23 10:56:04 ouranos systemd[1]: Started Cleanup of Temporary Directories.
Feb 23 10:56:22 ouranos com.canonical.Unity.Scope.Applications[2356]: Error loading package indexes: Couldn't stat '/var/cache/software-center/xapian'
Feb 23 10:56:22 ouranos com.canonical.Unity.Scope.Applications[2356]: (unity-scope-loader:3525): unity-applications-daemon-CRITICAL **: daemon.vala:144: Failed to load Software Center index. 'Apps Available for Download' will not be listed
Feb 23 10:56:25 ouranos gnome-session[2531]: Gtk-Message: GtkDialog mapped without a transient parent. This is discouraged.
Feb 23 11:02:29 ouranos anacron[1277]: Job `cron.weekly' terminated
Feb 23 11:02:29 ouranos anacron[1277]: Normal exit (1 job run)
Feb 23 11:06:25 ouranos thermald[1355]: sysfs write failed trip_point_0_temp
Feb 23 11:06:29 ouranos thermald[1355]: sysfs write failed trip_point_0_temp
Feb 23 11:06:36 ouranos systemd[1]: Started CUPS Scheduler.
Feb 23 11:06:37 ouranos thermald[1355]: sysfs write failed trip_point_0_temp

还有一个:

Feb 23 14:05:00 ouranos gnome-session[7432]: Done!
Feb 23 14:05:13 ouranos thermald[1350]: sysfs write failed trip_point_0_temp
Feb 23 14:05:16 ouranos bluetoothd[1317]: Endpoint unregistered: sender=:1.254 path=/MediaEndpoint/A2DPSource
Feb 23 14:05:16 ouranos bluetoothd[1317]: Endpoint unregistered: sender=:1.254 path=/MediaEndpoint/A2DPSink
Feb 23 14:05:19 ouranos org.gnome.zeitgeist.Engine[7259]: ** (zeitgeist-datahub:8084): WARNING **: zeitgeist-datahub.vala:229: Unable to get name "org.gnome.zeitgeist.datahub" on the bus!
Feb 23 14:05:21 ouranos thermald[1350]: sysfs write failed trip_point_0_temp
Feb 23 14:05:29 ouranos gnome-session[7432]: ** (zeitgeist-datahub:8064): WARNING **: zeitgeist-datahub.vala:212: Error during inserting events: GDBus.Error:org.gnome.zeitgeist.EngineError.InvalidArgument: Incomplete event: interpretation, manifestation and actor are required
Feb 23 14:05:29 ouranos gnome-session[7432]: [2017-02-23T19:05:29] [ERR] hddtemp : échec de l'ouverture de la connexion.
Feb 23 14:05:29 ouranos gnome-session[7432]: [2017-02-23T19:05:29] [ERR] atasmart : échec de sk_disk_open() : /dev/sda.
Feb 23 14:05:29 ouranos gnome-session[7432]: [2017-02-23T19:05:29] [ERR] atasmart : échec de sk_disk_open() : /dev/sdb.
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00

(注意:/dev/sda是本地硬盘,/dev/sdb是外部USB硬盘)。

我如何才能找到导致崩溃的原因?nvidia-modeset我应该担心这个错误吗?

由于我的 CPU 是 Sandy Bridge 一代,因此影响 Pstate 的 Baytrail 漏洞很可能不是导致问题的原因。

答案1

我也有过类似的经历。我的电脑在使用网络浏览器或玩了一会儿游戏后就会关机。原来是我的显卡有问题(它用了大约 5 年才出现这种情况),所以我把它换了,我的电脑就再也没有崩溃了。我不知道你的情况是不是这样,但如果你有一张额外的显卡,试着把它换掉看看。

答案2

经过一番研究,它似乎是这些错误的重复:

与此错误相关的是:https://bugzilla.kernel.org/show_bug.cgi?id=109051

但是这个解决方案(如何安装内核 4.8.5 | askubuntu.com)并没有解决问题。而且我的CPU不是Baytrail,而是Sandy Bridge。

首先,日志表明存在一个反复出现的问题thermald

Feb 23 11:06:25 ouranos thermald[1355]: sysfs write failed trip_point_0_temp

我必须使用来自 ubuntu-proposed 仓库的更正版本来更新它。此问题在此处引用:https://answers.launchpad.net/ubuntu/+source/thermald/+question/293480

然后 Prime Indicator Plus 出现了问题,即使 prime-select 使用的是 Intel,它也会启用“Nvidia 电源管理”。我从未听说过此选项,但系统日志显示了一些涉及 Nvidia 电源管理的奇怪错误。

因此我删除了 Prime Indicator Plus。

我认为 TLP 电源管理工具的过于激进的配置也会导致一些故障,因此我也将其删除了。

最后,我删除、清除并重新安装了 Nvidia 驱动程序,自从我错误地购买了 Optimus 双 GPU 笔记本电脑以来,它一如既往地成为我出现奇怪的错误和崩溃的主要原因。

现在看起来还不错。

相关内容