Clevo N850EL 频繁崩溃/冻结 Ubuntu 18.04.1

Clevo N850EL 频繁崩溃/冻结 Ubuntu 18.04.1

我刚买了一台全新的 Clevo N850EL(在某些地区也称为 Prostar 或 Sager NP4850),配备 CPU i7-8750H、32GB RAM。

Ubuntu 18.04.1 安装正常,并且运行良好(我可以工作、输入、安装和删除软件),直到它在一段时间后崩溃(45 分钟 +/- 30 分钟后)。

(它同时具有 NVIDIA MX150 和 Intel HD 显卡。我相信我在 Ubuntu 下使用 Intel HD 显卡运行)。

崩溃是完全冻结(鼠标不动、TCP/IP 连接冻结并中断、Ctrl++没有Alt响应Del,必须按住电源按钮 5 秒钟才能重新启动)。

/var/log/syslog冻结期间或/var/log/kern.log冻结之前或之后无异常进入。

所以,这只是一次神秘的崩溃“冻结”,没有我所知道的日志/痕迹。

(编辑:2018-08-25 我启用了 SysRq,但网络服务也冻结了,所以我无法ssh远程请求 SysRq,而且键盘Alt++似乎SysRqcommand冻结了)。

第一天,运行这台电脑自带的 Windows 10 时显然也遇到了同样的问题。

但是,一旦我升级到 Windows 10 1803(使用提示的所有累积补丁并多次重新启动),问题就消失了。现在它在 Windows 10 1803 下完全稳定。

这似乎是 Linux 下的一个“新硬件”问题,Windows 最近已经解决了这个问题。

我该怎么办?我是否应该尝试在 Ubuntu 中使用上游内核?(哪一个?)(是否有任何 USB 笔版本的 Ubuntu,我可以使用较新的内核运行一整天,只是为了查看问题是否来自内核?我是否应该去启动板并打开一个问题?)

(我不太想在 Windows 下工作... :-(

编辑:内核是 4.15.0-32-generic

# lspci
00:00.0 Host bridge: Intel Corporation Device 3ec4 (rev 07)
00:01.0 PCI bridge: Intel Corporation Skylake PCIe Controller (x16) (rev 07)
00:02.0 VGA compatible controller: Intel Corporation Device 3e9b
00:08.0 System peripheral: Intel Corporation Skylake Gaussian Mixture Model
00:12.0 Signal processing controller: Intel Corporation Device a379 (rev 10)
00:14.0 USB controller: Intel Corporation Device a36d (rev 10)
00:14.2 RAM memory: Intel Corporation Device a36f (rev 10)
00:16.0 Communication controller: Intel Corporation Device a360 (rev 10)
00:17.0 SATA controller: Intel Corporation Device a353 (rev 10)
00:1d.0 PCI bridge: Intel Corporation Device a330 (rev f0)
00:1d.5 PCI bridge: Intel Corporation Device a335 (rev f0)
00:1d.6 PCI bridge: Intel Corporation Device a336 (rev f0)
00:1f.0 ISA bridge: Intel Corporation Device a30d (rev 10)
00:1f.3 Audio device: Intel Corporation Device a348 (rev 10)
00:1f.4 SMBus: Intel Corporation Device a323 (rev 10)
00:1f.5 Serial bus controller [0c80]: Intel Corporation Device a324 (rev 10)
01:00.0 3D controller: NVIDIA Corporation GP108M [GeForce MX150] (rev a1)
02:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd Device a808
03:00.0 Network controller: Intel Corporation Device 2526 (rev 29)
04:00.0 Unassigned class [ff00]: Realtek Semiconductor Co., Ltd. RTL8411B PCI Express Card Reader (rev 01)
04:00.1 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (rev 12)

编辑2018-08-24:升级到内核44.15.0-33-generic。问题仍然存在。

以控制台模式启动(GRUB 选项 systemd.unit=rescue.target),以 root 身份从命令行打开网络管理器和 WiFi(参见https://help.ubuntu.com/community/NetworkManager),花了几个小时通过网络复制了一些文件。

控制台模式下不会出现此问题。我没有在控制台模式下对系统施加太大负载,但我设法从网络复制了几 GB 的文件,并且正常运行时间超过 8 小时,并且运行了一些服务和进程,我想我可以假设控制台模式下不会发生相同的崩溃/冻结。

安装nvidia-driver-390专有驱动程序,并使用以下命令切换到 NVIDIA:

sudo ubuntu-drivers devices
sudo ubuntu-drivers autoinstall
sudo prime-select nvidia
sudo reboot
nvidia-settings # just to check that it seems installed

专有驱动程序仍然存在同样的问题nvidia-driver-390

切换回英特尔,并将 noveau 内核驱动程序列入黑名单:

sudo prime-select intel
sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
sudo update-initramfs -u
sudo reboot

当禁用 noveau 时,英特尔视频驱动程序的问题仍然存在。

它无法识别 WiFi 适配器,但在 GNOME 桌面模式下似乎可以稳定运行几个小时(我让它运行了 2 小时 30 分钟,同时通过有线以太网将几 GB 的文件复制到磁盘)。(后来尝试回到这个 Debian 测试,发现它也经常崩溃/冻结。)

但是,怀着新的希望,我决定尝试上游内核(参见https://wiki.ubuntu.com/Kernel/MainlineBuilds

首先,我尝试了内核 4.17.19-generic amd64。在运行的前 5 分钟内崩溃/冻结。(再次...问题仍然相同)..

然后我尝试了内核 4.18.5-generic amd64。它似乎运行了几个小时(超过 2 小时),但随后冻结并重新启动。第二天进行了更多测试,问题似乎仍然存在(并且总是在重新启动时崩溃)。(我尝试禁用 WiFi,只使用有线以太网,但问题最终再次发生。旁注:热重启后,我似乎通过 DHCP 丢失了有线以太网)。

(旁注 2:同时,我取消了 noveau 驱动程序的黑名单,因为它导致了相关的超时错误/var/log/kern.log。“传感器”实用程序报告 3D 适配器上的温度为 511ºC :-)

编辑2018-08-26 kdump:我尝试配置kdump(如https://help.ubuntu.com/lts/serverguide/kernel-crash-dump.html),但是,当我在图形模式下测试它时,我遇到了与描述中完全相同的问题kdump 不记录崩溃(系统冻结、无消息、无重启、无崩溃转储/var/crash/)。

如果我在控制台模式下触发内核崩溃

echo c > /proc/sysrq-trigger

然后我在控制台上看到崩溃消息,它们/var/log/syslog在下次重新启动时被部分记录下来。仍然没有崩溃转储/var/crash

所以我有点迷茫。我应该尝试什么?

编辑2018-08-27:我没有发现任何 DRAM 内存错误(memtest86.com 运行了一整夜 - 6 小时 16 分钟),并且没有发现任何错误。

UEFI 启动已禁用。

我下载了 Ubuntu 18.10 每日构建版本 http://cdimage.ubuntu.com/daily-live/20180827/cosmic-desktop-amd64.iso 并将其作为实时 USB 笔使用了几分钟,但却像往常一样崩溃/冻结。

(PS:在 18.10 GNOME 控制面板中,我无法看到正在使用哪个显卡。当我询问“信息”项时,它崩溃/冻结了)。

有没有办法使用有限的 VESA 图形模式?(我试过 在 Ubuntu 16.10 中强制使用 VESA 驱动程序 没有成功)。

编辑2018-08-28:添加用户abu_bua请求的信息:

root@jpsl-N8xxEL:~# hwinfo --cpu | grep -Ei "model\:|Features\:|Config Status\:" -m 4
  Model: 6.158.10 "Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz"
  Features: fpu,vme,de,pse,tsc,msr,pae,mce,cx8,apic,sep,mtrr,pge,mca,cmov,pat,pse36,clflush,dts,acpi,mmx,fxsr,sse,sse2,ss,ht,tm,pbe,syscall,nx,pdpe1gb,rdtscp,lm,constant_tsc,art,arch_perfmon,pebs,bts,rep_good,nopl,xtopology,nonstop_tsc,cpuid,aperfmperf,tsc_known_freq,pni,pclmulqdq,dtes64,monitor,ds_cpl,vmx,est,tm2,ssse3,sdbg,fma,cx16,xtpr,pdcm,pcid,sse4_1,sse4_2,x2apic,movbe,popcnt,tsc_deadline_timer,aes,xsave,avx,f16c,rdrand,lahf_lm,abm,3dnowprefetch,cpuid_fault,epb,invpcid_single,pti,ssbd,ibrs,ibpb,stibp,tpr_shadow,vnmi,flexpriority,ept,vpid,fsgsbase,tsc_adjust,bmi1,avx2,smep,bmi2,erms,invpcid,mpx,rdseed,adx,smap,clflushopt,intel_pt,xsaveopt,xsavec,xgetbv1,xsaves,dtherm,ida,arat,pln,pts,hwp,hwp_notify,hwp_act_window,hwp_epp,flush_l1d
  Config Status: cfg=new, avail=yes, need=no, active=unknown
  Model: 6.158.10 "Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz"
root@jpsl-N8xxEL:~# lspci -knn | grep -i vga -A3
00:02.0 VGA compatible controller [0300]: Intel Corporation Device [8086:3e9b]
    Subsystem: CLEVO/KAPOK Computer Device [1558:8555]
    Kernel driver in use: i915
    Kernel modules: i915

答案1

尝试使用内核参数: intel_idle.max_cstate=1

请执行以下步骤:

  • sudo nano /etc/default/grub
  • GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"用以下 行替换 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash intel_idle.max_cstate=1"
  • 保存(CTRL+O)
  • sudo update-grub
  • sudo reboot

确认允许的最大 CPU C 状态:

 cat /sys/module/intel_idle/parameters/max_cstate

更多信息https://bugzilla.kernel.org/show_bug.cgi?id=109051


简短描述++

为了在 CPU 空闲时节省能源,可以命令 CPU 进入低功耗模式。每个 CPU 都有几种电源模式,它们统称为C-statesC-modes.

这些模式的目的是切断 CPU 内部空闲单元的时钟信号和电源。为了节省能源,您可以关闭尽可能多的单元(通过切断时钟),同时降低电压甚至完全关闭。另一方面,您必须考虑到 CPU 需要更多时间才能“唤醒”并再次 100% 运行。这些模式称为C 状态。它们通常从 C0 开始,这是正常的 CPU 操作模式,即 CPU 100% 开启。随着 C 数的增加,CPU 睡眠模式更深,即关闭更多的电路和信号,并且 CPU 需要更多时间才能返回 C0 模式,即唤醒。每种模式也有一个名称,其中几个具有具有不同省电(因此唤醒时间)级别的子模式。

c-状态


++来自https://gist.github.com/wmealing/2dd2b543c4d3cff6cab7/

相关内容