预期行为

预期行为

显然,我是一个新手 Ubuntu 用户,所以请原谅我可能犯的任何严重错误或我可能不具备的必要知识:D

预期行为

我有一台笔记本电脑Dell XPS13,最近安装了Ubuntu 20.04 focal它,我想使用Nvidia GTX 1660 SUPEReGPU来改善视频体验Razor Core X,理想情况下使用外部显示器上的输出。

实际行为

我从来没有成功地得到任何东西,除了外接显示器上的黑屏。

我尝试过

我在 BIOS 中启用了 Thunderbolt 支持,并将其设置为不需要安全性,这样只要插入它就会被识别。我已经安装了列出的驱动程序,ubuntu-driver devices主要是 nvidia-driver 的 440 版本:

ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:1c.4/0000:03:00.0/0000:04:01.0/0000:06:00.0/0000:07:01.0/0000:08:00.0 ==
modalias : pci:v000010DEd000021C4sv00001462sd0000C758bc03sc00i00
vendor   : NVIDIA Corporation
model    : TU116 [GeForce GTX 1660 SUPER]
manual_install: True
driver   : nvidia-driver-440 - distro non-free recommended
driver   : nvidia-driver-440-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

我已经运行sudo ubuntu-driver autoinstall并且reboot 登录屏幕不断返回,尽管我输入了正确的密码。

如果我拔掉 eGPU,我就可以通过登录屏幕。

如果我重新连接并运行,nvidia-smi我会得到以下信息:

sudo nvidia-smi
[sudo] password for andrei: 
Tue Sep  8 17:55:42 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.100      Driver Version: 440.100      CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 166...  Off  | 00000000:3C:00.0 Off |                  N/A |
|  0%   40C    P0    12W / 130W |      0MiB /  5944MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

其他说明:

  • 我没有/etc/X11/xorg.conf
  • 看起来/usr/lib/modprobe.d/nvidia-graphics-drivers.conf像这样:
blacklist nouveau
blacklist lbm-nouveau
alias nouveau off
alias lbm-nouveau off

我也运行nvidia-settings并得到了这个:

ERROR: Unable to load info from any available system


(nvidia-settings:4382): GLib-GObject-CRITICAL **: 18:09:30.505: g_object_unref: assertion 'G_IS_OBJECT (object)' failed
** Message: 18:09:30.507: PRIME: Requires offloading
** Message: 18:09:30.507: PRIME: is it supported? yes
** Message: 18:09:30.534: PRIME: Usage: /usr/bin/prime-select nvidia|intel|on-demand|query
** Message: 18:09:30.534: PRIME: on-demand mode: "1"
** Message: 18:09:30.534: PRIME: is "on-demand" mode supported? yes

外接显示器无输出。

我还尝试了 ubuntu 图形驱动程序存储库sudo apt-add-repository ppa:graphics-drivers/ppa,并使用新推荐的驱动程序重复了上面显示的过程,nvidia-driver-450但结果相似,主要是无法登录或登录屏幕闪烁,遗憾的是外部视频卡没有输出。

我也尝试过使用egpu-switcher“nvidia-config which , I guess mainly tried to create/modify the/etc/X11/xorg.conf”,但是我的外接显示器上从来没有输出(这是可以实现的:)因为当同一根电缆直接连接到我的笔记本电脑时就可以工作)。

如果有人能建议一些方法,让我和所有提到的硬件和软件都能以圆满的方式结束这段痛苦,我将不胜感激:)

谢谢你!

更新

正在运行nvidia-settings并记录以下内容:

ERROR: Unable to load info from any available system


(nvidia-settings:20812): GLib-GObject-CRITICAL **: 01:58:56.002: g_object_unref: assertion 'G_IS_OBJECT (object)' failed
** Message: 01:58:56.005: PRIME: Requires offloading
** Message: 01:58:56.005: PRIME: is it supported? yes
** Message: 01:58:56.039: PRIME: Usage: /usr/bin/prime-select nvidia|intel|on-demand|query
** Message: 01:58:56.039: PRIME: on-demand mode: "1"
** Message: 01:58:56.039: PRIME: is "on-demand" mode supported? yes

答案1

经过长时间的斗争,我实际上已经能够根据以下评论解决我的问题:https://forums.developer.nvidia.com/t/nvidia-xconfig-doesnt-do-what-i-want-it-to-nor-does-nvidia-settings/107883/7

因此,我认为了解xorg.conf在这方面无法帮助您是至关重要的。无论我做什么,我都无法在 的情况下获得任何结果xorg.conf

对我有用的是:

  1. 删除您可能尝试过的所有 nvidia 产品:sudo apt --purge remove 'nvidia-*'
  2. 从 nvidia 网站下载最新的 Nvidia 驱动程序并使其可执行。
  3. 重新启动以恢复模式(或不运行 ax 服务器)并运行驱动程序安装程序,即使它说您的系统上没有找到 gpu
  4. 删除/etc/X11/xorg.conf你可能有
  5. reboot通常情况下
  6. nvidia-prime如果尚未安装,请安装
  7. sudo prime-select nvidia
  8. 更新/usr/share/X11/xorg.conf.d/10-amdgpu.conf 替换驱动程序modesetting
Section "OutputClass"
        Identifier "AMDgpu"
        MatchDriver "amdgpu"
        Driver "modesetting"
EndSection
  1. 更新为类似以下内容:
Section "OutputClass"
    Identifier "nvidia"
    MatchDriver "nvidia-drm"
    Driver "nvidia"
    Option "AllowEmptyInitialConfiguration"
    ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg"
    Option "PrimaryGPU" "Yes"
    Option "AllowExternalGpus" "True"
EndSection
  1. 创建两个文件,内容optimus.desktop如下:/etc/xdg/autostart//usr/share/gdm/greeter/autostart/
[Desktop Entry]
Type=Application
Name=Optimus
Exec=sh -c "xrandr --setprovideroutputsource modesetting 0; xrandr --auto"
NoDisplay=true
X-GNOME-Autostart-Phase=DisplayServer

(@generix 在那里说, modesetting NVIDIA-0;但对我来说,它从来没有像那样起作用。然而它可以与 一起使用modesetting 0;

  1. reboot

  2. 通过运行测试一切是否正常:__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo | grep vendor 如果它没有返回 nvidia 的行,那就不好了在我的情况下,我得到:

server glx vendor string: NVIDIA Corporation
client glx vendor string: NVIDIA Corporation
OpenGL vendor string: NVIDIA Corporation

另一项检查是,运行nvidia-smi会列出至少一些进程。

而且我可以在外部显示器上获得 nvidia gpu 的信号,正如我想要的那样:)

谢谢 ;)

答案2

同时发现解决方案@bluehipy 非常有帮助,让我的运行 Ubuntu 20.04 的 Acer Predator Helios 300 与外接显示器配合使用,并正确安装 NVIDIA/CUDA 堆栈以进行深度学习工作,因为它会导致问题。

当我考虑实际退回 Acer Predator Helios 300 并查看带有 eGPU 的 Dell XPS 13 是否可以在本地调试机器学习/数据科学模型并在云端进行实际训练时用于“瘦客户端”类型的工作流程时,我才发现了这个线程。

那么,如果其他人在使他们的笔记本电脑工作时遇到困难,不妨将我的小调整添加到原始说明中?

先决条件:

sudo apt install gcc make mesa-utils mpich

安装 NVIDIA 驱动程序

对我有用的是:

  1. 删除您可能尝试过的所有 nvidia 产品:sudo apt --purge remove nvidia-*

  2. 原始说明说下载最新的驱动程序,但你可能希望从中找到驱动程序版本最新的 CUDA 工具包所以在安装时检查一下。可能与最新的 NVIDIA 驱动程序兼容吗?你需要检查旧驱动程序最有可能与 CUDA 工具包驱动程序版本匹配,例如,在执行这些指令时,匹配版本为 470.57.02(NVIDIA-Linux-x86_64-470.57.02.run)。

  3. 在恢复模式下重新启动(或不运行 ax 服务器)并运行驱动程序安装程序,即使它说你的系统上没有找到 gpu(降到 root 状态,例如cd ../home/username/Downloads./NVIDIA-Linux-x86_64-470.74.run

  4. 删除/etc/X11/xorg.conf你可能有

  5. 重新启动(点击eUbuntu 的 grub 菜单并添加nomodeset在最后)

  6. 如果尚未安装,请安装 nvidia-prime

  7. sudo prime-select nvidia

  8. 更新/usr/share/X11/xorg.conf.d/10-amdgpu.conf驱动程序并将其替换为modesetting

Section "OutputClass" 
    Identifier "AMDgpu" 
    MatchDriver "amdgpu" 
    Driver "modesetting"
EndSection
  1. 使用类似以下命令创建 nvidia 配置文件 ( sudo gedit /usr/share/X11/xorg.conf.d/10-nvidia.conf):
Section "OutputClass" 
    Identifier "nvidia" 
    MatchDriver "nvidia-drm" 
    Driver "nvidia" 
    Option "AllowEmptyInitialConfiguration" 
    ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg" 
    Option "PrimaryGPU" "Yes" 
    Option "AllowExternalGpus" "True"
EndSection

optimus.desktop10在 中创建两个文件/etc/xdg/autostart//usr/share/gdm/greeter/autostart/内容如下:

[Desktop Entry]
Type=Application
Name=Optimus
Exec=sh -c "xrandr --setprovideroutputsource modesetting 0; xrandr --auto"
NoDisplay=true
X-GNOME-Autostart-Phase=DisplayServer
  1. 修改 grub因此 nomodeset 每次都存在: sudo gedit /etc/default/grub

  2. 重启

  3. 运行以下命令测试一切是否正常:__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo | grep vendor

  4. 检查是否nvidia-smi会列出至少一些流程。

| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC 
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.
|   0  NVIDIA GeForce ...  Off  | 00000000:01:00.0  On |                  N/A
| N/A   42C    P8    14W /  N/A |    264MiB /  5946MiB |      1%      Default

安装 CUDA 工具包

最新的 CUDA 工具包在指令cuda_11.4.2_470.57.02_linux.run安装时,无需重新安装 NVIDIA 驱动程序

wget https://developer.download.nvidia.com/compute/cuda/11.4.2/local_installers/cuda_11.4.2_470.57.02_linux.run
sudo sh cuda_11.4.2_470.57.02_linux.run

CUDA 工具包安装

验证 CUDA 安装

https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#install-samples

先决条件:(如果您希望正确编译所有样本)

sudo apt-get install g++ freeglut3-dev build-essential libx11-dev \
    libxmu-dev libxi-dev libglu1-mesa libglu1-mesa-dev libfreeimage-dev

例如./deviceQuery返回:

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "NVIDIA GeForce RTX 3060 Laptop GPU"
  CUDA Driver Version / Runtime Version          11.4 / 11.4
  CUDA Capability Major/Minor version number:    8.6
  Total amount of global memory:                 5947 MBytes (6235422720 bytes)
  (030) Multiprocessors, (128) CUDA Cores/MP:    3840 CUDA Cores
  GPU Max Clock rate:                            1425 MHz (1.42 GHz)

...

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 11.4, CUDA Runtime Version = 11.4, NumDevs = 1
Result = PASS

cudnn 安装

参见指南https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

下载适用于 CUDA 11.4 的 cuDNN v8.2.4(2021 年 9 月 2 日)

-> Linux 的 cuDNN 库(x86_64),例如cudnn-11.4-linux-x64-v8.2.4.15.tgz

答案3

我有一个类似的设置,其中一个 NUC 运行 Ubuntu Mate 20.4,另一个 Razor Core X 配备 NVidia RTX 2060 Super。

基本上,我和你的情况一样,什么都没用。然后我搞砸了,不得不重新安装 Ubuntu。不过,我是在插入 eGPU 外壳的情况下这样做的。安装过程中,NVidia 440 驱动程序会自动安装。

这时我发现了以下帖子:

https://egpu.io/forums/thunderbolt-linux-setup/ubuntu-19-04-easy-to-use-setup-script-for-your-egpu/

使用存储库中提供的脚本,我终于可以让 GPU 工作了!我可以访问 CUDA,还可以将两个外部显示器与 eGPU 一起使用。

我希望这个脚本也能帮到你。祝你好运。

相关内容