Ubuntu 16.10 过热问题

Ubuntu 16.10 过热问题

我最近安装了 Ubuntu 16.10,从那时起 Ubuntu 就会自行重启。输出:last | grep "Oct 31"是:

aegefel  tty7         :0               Mon Oct 31 15:15    gone - no logout
reboot   system boot  4.8.0-26-generic Mon Oct 31 15:14   still running
aegefel  tty7         :0               Mon Oct 31 15:02 - down   (00:04)
reboot   system boot  4.8.0-26-generic Mon Oct 31 15:02 - 15:06  (00:04)
aegefel  tty7         :0               Mon Oct 31 14:33 - crash  (00:28)
reboot   system boot  4.8.0-26-generic Mon Oct 31 14:33 - 15:06  (00:33)
aegefel  tty7         :0               Mon Oct 31 14:12 - crash  (00:20)
reboot   system boot  4.8.0-26-generic Mon Oct 31 14:12 - 15:06  (00:54)
aegefel  tty7         :0               Mon Oct 31 13:08 - crash  (01:04)
reboot   system boot  4.8.0-26-generic Mon Oct 31 13:08 - 15:06  (01:58)

这让我相信这是由车祸引起的

我不知道这是什么原因造成的,但当我尝试看电影或进行备份时就会发生这种情况

我该如何继续?

编辑1

该命令more /var/log/syslog*给我:

Nov  6 18:18:17 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b47b0 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:17 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b47b0 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:31 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b4120 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:31 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b4120 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:36 aegefel-Akoya-E6424-MD99850 systemd[1]: Starting Stop ureadahead data collection...
Nov  6 18:18:36 aegefel-Akoya-E6424-MD99850 systemd[1]: Started Stop ureadahead data collection.

然后几乎一分钟内什么都没有发生,所以我猜想电脑重新启动了。

ls -alt /var/crash今天的命令给了我:

total 21672
drwxrwsrwt  2 root     whoopsie     4096 Nov  6 14:26 .
-rwxrwxrwx  1 root     whoopsie        0 Nov  6 14:26 .lock

编辑2

仅当我的 CPU 使用率为 40% - 50% 或更多时才会附加此内容(我的 CPU 是 Intel Core i5 6267U 2.9GHz)

编辑3

该命令sensors给出以下信息:

coretemp-isa-0000
Adapter: ISA adapter
Physical id 0:  +37.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:         +34.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:         +36.0°C  (high = +100.0°C, crit = +100.0°C)

acpitz-virtual-0
Adapter: Virtual device
temp1:        +38.0°C  (crit = +98.0°C)

pch_skylake-virtual-0
Adapter: Virtual device
temp1:        +35.0°C  

高温等于临界温度。也许我的笔记本电脑只是过热,风扇没有时间降低温度。我试图降低高温,但这会自动降低临界温度(临界温度必须等于高温)

编辑4

这里有

这里11 月 20 日发生的坠机事件

编辑5

经过一些测试,我认为问题出在 GPU 过热。事实上,我的笔记本电脑只有在我尝试观看电影、在笔记本电脑上测试一些免费游戏或使用虚幻引擎 4 时才会重新启动。我的电脑没有使用 Blender 重新启动的原因是 Blender 默认使用 CPU(而不是 GPU)。我有什么想法吗Intel Iris Graphics 550 (Skylake GT3e)

答案1

如果你真的关心重启由于内核崩溃,正如您的帖子标题所示,您可以检查文件/etc/sysctl.conf中是否有类似于kernel.panic = nwhere的指令n,其中有一些数字表示在内核崩溃时重新启动之前要延迟多少秒。研究表明默认情况下不应该重新启动。

相反,我怀疑你更关心的是确定根本原因在这些重启中(我认为是一些与硬件相关的故障),您需要查看机器检查事件,以确定哪些硬件出现故障。如果您没有该文件,/var/log/mcelog您可能需要安装mcelog 包通过启用 Universe 存储库(如果尚未在您的源中启用)并发出命令sudo apt install mcelog然后继续这些事件将被记录到/var/log/mcelog

为了清楚起见,以下是man mcelog

X86  CPUs  report  errors  detected  by the CPU as machine check events
       (MCEs).  These can be data corruption detected in the  CPU  caches,  in
       main memory by an integrated memory controller, data transfer errors on
       the front side bus or CPU interconnect or other internal errors.   Pos‐
       sible  causes can be cosmic radiation, instable power supplies, cooling
       problems, broken hardware, or bad luck.

       Most errors can be corrected by the CPU by  internal  error  correction
       mechanisms. Uncorrected errors cause machine check exceptions which may
       panic the machine.

有关 mcelog 文件格式的更多信息,请参见这里

Linux 系统通常不会默认由于内核崩溃而重新启动,因此您可能需要检查/etc/sysctl.conf前面提到的文件。

资料来源:

http://www.techrepublic.com/blog/linux-and-open-source/auto-reboot-linux-after-a-kernel-panic/

http://packages.ubuntu.com

系统日志中出现“mce:[硬件错误]:记录了机器检查事件”。我该怎么办?

http://mcelog.org/logfile.html

根据您的 mcelog,系统中的 CPU 1 和 3 过热。节流、冷却并重新节流(所有这些都是设计用来防止 CPU 过热的)。根本原因可能是 CPU 和散热器之间的导热化合物涂抹不当、散热器松动、通风口堵塞、过多灰尘或冷却设备(风扇?)出现故障。另一个(不太可能)的可能性是 CPU 的热检测功能出现故障。

答案2

这个题目的标题不清楚。

无论如何,如果您需要帮助来调查系统崩溃,并且所有之前的评论都没有用,请尝试以下操作:

  1. 增加内核日志详细程度。
  2. 停止内核以在崩溃/崩溃时自动重启。
  3. 尝试远程登录(例如 ssh)您的系统并检查日志。
  4. 正如@user.dz所述,使用例如memtest86+http://www.memtest.org/检查你的 RAM。
  5. 因为你说“...仅当我的 CPU 使用率为 40% - 50% 或更多时才会附加此内容...“,可能是 PSU 问题?我的意思是您的系统需要的电量超过了 PSU 所能提供的电量。

相关内容