我运行的是 ubuntu 20.04,Nvidia 460.53 运行良好。对于一些 GPU CUDA 编码,我使用了 Nvidia-Docker2 镜像,这也很好。
我最近将 CPU 升级到 5950x,并将内核从 5.4 升级到 5.11。现在,每当我运行 nvidia-docker2 容器时,用户界面都会挂起长达一分钟。如果我在 nvidia 容器中运行 jupyter,那么每隔几分钟它也会挂起一分钟。(我猜它正在进行某种 gpu 渲染刷新)
与 docker 容器中的任何 gpu 命令也相同。例如,如果我import cudf
在 python 命令行中运行使用 gpu 的 nvidia 库,我的 ui 将挂起一分钟左右。
我尝试过清除 nvidia 驱动程序和 nvidia docker2 并重新安装,但还是出现了这种情况。我检查并重新启用了 Bios 中的 SVT 和 IOMMU 以进行虚拟化,但也没有效果。
有什么想法下一步该检查什么吗?
更新:
好的,我恢复了Linux 5.4.0-72-generic
,并从 Nvidia 官方网站清除并重新安装了460.73.01
驱动程序,以及nvidia-docker2
仍然卡顿。我一直在查看日志:
/var/log/Xorg.0.log
/var/log/Xorg.1.log
但没看到任何错误。
我确实注意到,延迟峰值伴随着 100% 的 GPU 使用率和一个 100% 的 CPU 核心使用率(如 htop 所示)。
/usr/lib/xorg/Xorg vt2 -displayfd 3 -auth /run/user/1000/gdm/Xauthority -background none -norest -keeptty -verbose 3