即使 CPU 和内存使用率很低,Ubuntu 20.04 也会在 1-2 天后冻结

即使 CPU 和内存使用率很低,Ubuntu 20.04 也会在 1-2 天后冻结

我已经在系统上安装了 ubuntu 20.04.02 LTS。我的系统有 63 GB 的 RAM 和 48 个 CPU。我运行了一个 Python 程序 2-3 天,它消耗了大约 11 GB 的 RAM 和 3-4 个 CPU。即使大部分 RAM 和 CPU 都为空,Ubuntu 20 也会冻结。

我将 graphicx 驱动程序从 propriety(已测试)更改为 Xorg,但我仍然能感觉到有些滞后。重新启动系统是一个临时解决方案,但我不能每次都重新启动,因为有些程序大部分时间都在运行。

如果有人能告诉我问题出在哪里就好了。因为我是 Ubuntu 新手,所以我附上了lscpuif 的输出,这有帮助

Architecture:                    x86_64
CPU op-mode(s):                  32-bit, 64-bit
Byte Order:                      Little Endian
Address sizes:                   46 bits physical, 48 bits virtual
CPU(s):                          48
On-line CPU(s) list:             0-47
Thread(s) per core:              2
Core(s) per socket:              12
Socket(s):                       2
NUMA node(s):                    2
Vendor ID:                       GenuineIntel
CPU family:                      6
Model:                           63
Model name:                      Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30GHz
Stepping:                        2
CPU MHz:                         1197.247
CPU max MHz:                     3100.0000
CPU min MHz:                     1200.0000
BogoMIPS:                        4589.03
Virtualization:                  VT-x
L1d cache:                       768 KiB
L1i cache:                       768 KiB
L2 cache:                        6 MiB
L3 cache:                        60 MiB
NUMA node0 CPU(s):               0-11,24-35
NUMA node1 CPU(s):               12-23,36-47
Vulnerability Itlb multihit:     KVM: Mitigation: VMX disabled
Vulnerability L1tf:              Mitigation; PTE Inversion; VMX conditional cach
                                 e flushes, SMT vulnerable
Vulnerability Mds:               Mitigation; Clear CPU buffers; SMT vulnerable
Vulnerability Meltdown:          Mitigation; PTI
Vulnerability Spec store bypass: Mitigation; Speculative Store Bypass disabled v
                                 ia prctl and seccomp
Vulnerability Spectre v1:        Mitigation; usercopy/swapgs barriers and __user
                                  pointer sanitization
Vulnerability Spectre v2:        Mitigation; Full generic retpoline, IBPB condit
                                 ional, IBRS_FW, STIBP conditional, RSB filling
Vulnerability Srbds:             Not affected
Vulnerability Tsx async abort:   Not affected
Flags:                           fpu vme de pse tsc msr pae mce cx8 apic sep mtr
                                 r pge mca cmov pat pse36 clflush dts acpi mmx f
                                 xsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rd
                                 tscp lm constant_tsc arch_perfmon pebs bts rep_
                                 good nopl xtopology nonstop_tsc cpuid aperfmper
                                 f pni pclmulqdq dtes64 monitor ds_cpl vmx smx e
                                 st tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca s
                                 se4_1 sse4_2 x2apic movbe popcnt tsc_deadline_t
                                 imer aes xsave avx f16c rdrand lahf_lm abm cpui
                                 d_fault epb invpcid_single pti intel_ppin ssbd 
                                 ibrs ibpb stibp tpr_shadow vnmi flexpriority ep
                                 t vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 sme
                                 p bmi2 erms invpcid cqm xsaveopt cqm_llc cqm_oc
                                 cup_llc dtherm ida arat pln pts md_clear flush_
                                 l1d

输出lspci | grep VGA

03:00.0 VGA compatible controller: NVIDIA Corporation GK110GL [Quadro K5200] (rev a1)


编辑 我在 Mozilla Firefox 中使用 jupyter notebook 运行 10 python3,全部涉及计算和文件处理,即写入和保存。

free -h

              total        used        free      shared  buff/cache   available
Mem:           62Gi       1.6Gi        58Gi        43Mi       2.5Gi        60Gi
Swap:         2.0Gi          0B       2.0Gi

grep -i swap /etc/fstab

/swapfile                                 none            swap    sw              0       0

sysctl vm.swappiness

vm.swappiness = 60

我在注意到冻结前 1-2 小时检查了日志。以下是一些输出行journalctl --since "2021-03-03 15:10:00"

Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DFP-3: disconnected
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DFP-3: Internal TMDS
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DFP-3: 330.0 MHz maximum pixel clock
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0):
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DELL P2414H (DFP-4): connected
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DELL P2414H (DFP-4): Internal DisplayPort
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DELL P2414H (DFP-4): 960.0 MHz maximum pixel clock
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0):
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DFP-5: disconnected
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DFP-5: Internal DisplayPort
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0): DFP-5: 960.0 MHz maximum pixel clock
Mar 03 15:10:00 santanu-Precision-Tower-7810 /usr/lib/gdm3/gdm-x-session[1942]: (--) NVIDIA(GPU-0):
Mar 03 15:10:03 santanu-Precision-Tower-7810 gnome-shell[2080]: JS ERROR: TypeError: windowActor is null
                                                                _addWindowEffect@resource:///org/gnome/shell/ui/closeDialog.js:90:28
                                                                vfunc_show@resource:///org/gnome/shell/ui/closeDialog.js:162:14
Mar 03 15:10:08 santanu-Precision-Tower-7810 gnome-shell[2080]: JS ERROR: TypeError: windowActor is null
                                                                _addWindowEffect@resource:///org/gnome/shell/ui/closeDialog.js:90:28
                                                                vfunc_show@resource:///org/gnome/shell/ui/closeDialog.js:162:14
Mar 03 15:10:13 santanu-Precision-Tower-7810 gnome-shell[2080]: JS ERROR: TypeError: windowActor is null
                                                                _addWindowEffect@resource:///org/gnome/shell/ui/closeDialog.js:90:28
                                                                vfunc_show@resource:///org/gnome/shell/ui/closeDialog.js:162:14
Mar 03 15:10:23 santanu-Precision-Tower-7810 gnome-shell[2080]: JS ERROR: TypeError: windowActor is null
                                                                _addWindowEffect@resource:///org/gnome/shell/ui/closeDialog.js:90:28
                                                                vfunc_show@resource:///org/gnome/shell/ui/closeDialog.js:162:14

还有一个问题,这不是什么大问题,但可能会有所帮助。只需移动鼠标,图标就会突出显示。我附上了一张图片来更好地描述它。桌面图标突出显示

编辑2:

  1. python 命令不起作用。

的输出python3 --versionPython 3.8.5

  1. 没有 gnome-shell 扩展,
root@santanu-Precision-Tower-7810:/home/santanu/.local/share/gnome-shell# ls
application_state  gnome-overrides-migrated
  1. 输出ls -al /usr/share/gnome-shell/extensions
total 20
drwxr-xr-x 5 root root 4096 Feb  4 08:04 .
drwxr-xr-x 7 root root 4096 Feb  4 08:05 ..
drwxr-xr-x 2 root root 4096 Feb  4 08:04 desktop-icons@csoriano
drwxr-xr-x 3 root root 4096 Feb  4 08:04 [email protected]
drwxr-xr-x 3 root root 4096 Feb  4 08:04 [email protected]

  1. Nvidia 卡信息:NVIDIA Corporation GK110GL [Quadro K5200] Nvidia 驱动程序信息:nvidia driver 400 (propriety, tests)
Driver Version: 460.39
  1. Bios 版本A10 这是一台旧机器,我无法更改 bios,因为存在损坏硬件的风险。
Product:
Product Name  Precision Tower 7810
Vendor        Dell Inc

Board:
Name:         OGWHMW
Version:      A02

由于机器硬件比较旧,我是否应该切换回 ubuntu 18?

谢谢

答案1

BIOS

戴尔 Precision Tower 7810

英特尔 (R) 至强 (R) CPU E5-2670 v3 @ 2.30GHz

您的 BIOS 非常旧。有较新的 BIOS 可供您的机器使用(但请参阅下面的 CPU 说明),版本 A34,发布日期为 2020 年 11 月 17 日,可下载这里

在此处输入图片描述

注意:确认我拥有适合您型号的正确网页。

注意:更新 BIOS 之前请做好备份。

vm.swappiness

使用 64G RAM,你可以改变vm.swappiness=10以减少交换。将其添加到 /etc/sysctl.conf 的底部并重新启动。

交换

2G /swapfile 可能对于您的配置来说有点小。让我们将其增加到 4G...

笔记:命令使用不当dd可能导致数据丢失。建议复制/粘贴。

在里面terminal...

sudo swapoff -a           # turn off swap
sudo rm -i /swapfile      # remove old /swapfile

sudo dd if=/dev/zero of=/swapfile bs=1M count=4096

sudo chmod 600 /swapfile  # set proper file protections
sudo mkswap /swapfile     # init /swapfile
sudo swapon /swapfile     # turn on swap
free -h                   # confirm 64G RAM and 4G swap

确认 /etc/fstab 末尾的 /swapfile 行...并确认没有其他“swap”行...

要编辑,使用sudo -H gedit /etc/fstabsudo pico /etc/fstab

/swapfile  none  swap  sw  0  0

reboot                    # reboot and verify operation

gnome-shell 和桌面图标问题

请参阅我的回答这是什么?gnome-shell 不断出现 JS 错误,找不到答案

英伟达

NVIDIA 公司 GK110GL [Quadro K5200]

驱动程序版本:460.39

注意:如果需要的话,我们这里可能仍然存在需要讨论的问题。

相关内容