更新:回复的少数人似乎都关注显卡问题,但是尝试在 GPU 负载较重的情况下进行复制却没有任何结果,而尝试在 FS 使用负载的情况下进行复制却有结果(似乎 I/O 使用负载就足够了,但 FS 使用负载较重(如创建大量节点)时,即使 I/O 远远低于容量,也会冻结一切)。
因此我目前怀疑这是一个与 LUKS 和/或 CPU 的特定 ASE 指令和/或只是加密文件系统的基本限制相关的问题。
除非有人遇到过类似的问题,否则我可能会在有时间的时候进行更多调查,并发布一个更关注 fs 相关问题的不同问题。
我有一台相对不错的新笔记本电脑,最近在上面安装了 Ubuntu 19.4(并更新到 19.10)。
基本硬件和系统信息:
OS: Ubuntu 19.10 x86_64
Kernel: 5.3.0-26-generic
CPU: Intel i7-8750H (12) @ 4.100GHz
GPU: NVIDIA GeForce RTX 2070 Mobile
GPU: Intel UHD Graphics 630
Memory: 15861MiB
Nvidia 驱动程序信息:
nvidia_uvm 954368 0
nvidia_drm 49152 7
nvidia_modeset 1114112 7 nvidia_drm
nvidia 20406272 296 nvidia_uvm,nvidia_modeset
drm_kms_helper 184320 2 nvidia_drm,i915
drm 491520 11 drm_kms_helper,nvidia_drm,i915
ipmi_msghandler 102400 2 ipmi_devintf,nvidia
i2c_nvidia_gpu 16384 0
ii libnvidia-cfg1-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA binary OpenGL/GLX configuration library
ii libnvidia-common-440 440.44-0ubuntu0~0.19.10.1 all Shared files used by the NVIDIA libraries
ii libnvidia-compute-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA libcompute package
ii libnvidia-compute-440:i386 440.44-0ubuntu0~0.19.10.1 i386 NVIDIA libcompute package
ii libnvidia-decode-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA Video Decoding runtime libraries
ii libnvidia-decode-440:i386 440.44-0ubuntu0~0.19.10.1 i386 NVIDIA Video Decoding runtime libraries
ii libnvidia-encode-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVENC Video Encoding runtime library
ii libnvidia-encode-440:i386 440.44-0ubuntu0~0.19.10.1 i386 NVENC Video Encoding runtime library
ii libnvidia-fbc1-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA OpenGL-based Framebuffer Capture runtime library
ii libnvidia-fbc1-440:i386 440.44-0ubuntu0~0.19.10.1 i386 NVIDIA OpenGL-based Framebuffer Capture runtime library
ii libnvidia-gl-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA OpenGL/GLX/EGL/GLES GLVND libraries and Vulkan ICD
ii libnvidia-gl-440:i386 440.44-0ubuntu0~0.19.10.1 i386 NVIDIA OpenGL/GLX/EGL/GLES GLVND libraries and Vulkan ICD
ii libnvidia-ifr1-440:amd64 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA OpenGL-based Inband Frame Readback runtime library
ii libnvidia-ifr1-440:i386 440.44-0ubuntu0~0.19.10.1 i386 NVIDIA OpenGL-based Inband Frame Readback runtime library
ii nvidia-compute-utils-440 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA compute utilities
ii nvidia-dkms-440 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA DKMS package
ii nvidia-driver-440 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA driver metapackage
ii nvidia-kernel-common-440 440.44-0ubuntu0~0.19.10.1 amd64 Shared files used with the kernel module
ii nvidia-kernel-source-440 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA kernel source package
ii nvidia-prime 0.8.13 all Tools to enable NVIDIA's Prime
ii nvidia-settings 435.21-0ubuntu2 amd64 Tool for configuring the NVIDIA graphics driver
ii nvidia-utils-440 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA driver support binaries
ii xserver-xorg-video-nvidia-440 440.44-0ubuntu0~0.19.10.1 amd64 NVIDIA binary Xorg driver
一些更相关的信息可能是我在安装时选择了加密文件系统选项(不确定底层加密是什么)并且我正在使用 i3 窗口管理器(通过 apt-get 安装,通过在登录屏幕中选择它来使用它)
尽管 CPU 和内存使用率很低(例如,除一个 CPU 外,所有 CPU 的利用率均小于 5%,内存利用率小于 20%),但系统似乎会随机冻结。
我完全不知道为什么。冻结有时会持续 10 多分钟,迫使我重新启动,否则只会持续几秒钟。
它们似乎通常发生在我将浏览器使用(尤其是视频流)与 I/O 密集型过程(例如下载文件或解压其中包含大量子目录的非常大的档案)结合起来时。
很难描述这种情况发生的时间和频率,因为我似乎无法将其追溯到我可以记录的任何资源使用问题或任何错误journalctl
。
目前,我正在考虑三个选择:
我的 GPU 驱动程序有问题(尽管我确实安装了最新的专有驱动程序)
Ubuntu 默认使用的加密 FS 在中等 i/o 下非常糟糕,并且以某种方式导致冻结(对此表示怀疑,因为我有一个非常好的 NVME-SSD,并且我的处理器支持 ASE,但不支持 VAES)
我在安装软件包时默认执行的 I3 设置在某些方面存在严重错误(但我对此表示怀疑,因为我已经从头安装过好几次了,我想不出有什么地方会出错到这种程度)
经过一天的调试,我几乎要放弃了,因为这个问题很难追踪,除了屏幕本身在不可预测的时间以奇怪的方式冻结之外,没有明显的“问题”。
但是,我很好奇这里有没有人知道是什么原因导致了这个问题,我可以尝试哪些可能的修复方法,以及如何着手调查它。
附加信息
sudo lshw -c 视频
*-display
description: VGA compatible controller
product: TU106M [GeForce RTX 2070 Mobile]
vendor: NVIDIA Corporation
physical id: 0
bus info: pci@0000:01:00.0
version: a1
width: 64 bits
clock: 33MHz
capabilities: pm msi pciexpress vga_controller bus_master cap_list rom
configuration: driver=nvidia latency=0
resources: irq:141 memory:a4000000-a4ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:a5000000-a507ffff
*-display
description: VGA compatible controller
product: UHD Graphics 630 (Mobile)
vendor: Intel Corporation
physical id: 2
bus info: pci@0000:00:02.0
version: 00
width: 64 bits
clock: 33MHz
capabilities: pciexpress msi pm vga_controller bus_master cap_list rom
configuration: driver=i915 latency=0
resources: irq:132 memory:a3000000-a3ffffff memory:80000000-8fffffff ioport:5000(size=64) memory:c0000-dffff
免费-h
total used free shared buff/cache available
Mem: 15Gi 2,1Gi 3,1Gi 227Mi 10Gi 12Gi
Swap: 979Mi 165Mi 814Mi
sudo dmidecode -s bios 版本
GL704GW.302
sudo dmidecode | grep -A3'^系统信息'
System Information
Manufacturer: ASUSTeK COMPUTER INC.
Product Name: Strix GL704GW_GL704GW
Version: 1.0
答案1
部分答案...
根据此网页,您的 BIOS 已过时。
笔记:你必须确认您的确切品牌/型号适用于此网页。
华硕 Strix GL704GW
您有 BIOS 302。
当前是 BIOS 308。”提高系统稳定性“。
下载更新。
注意:首先备份所有重要文件。
应用 BIOS 更新。
重新测试您的系统。
此外,您的交换空间太小,vm.swappiness 需要调整。我们还需要检查 /var/crash/*.crash 日志、Nvidia 驱动程序问题、超频 CPU/RAM、memtest86 和 HDD 的 SMART 数据。稍后会详细介绍。