预期行为

Question 1

经过长时间的斗争，我实际上已经能够根据以下评论解决我的问题：https://forums.developer.nvidia.com/t/nvidia-xconfig-doesnt-do-what-i-want-it-to-nor-does-nvidia-settings/107883/7

因此，我认为了解xorg.conf在这方面无法帮助您是至关重要的。无论我做什么，我都无法在的情况下获得任何结果xorg.conf。

对我有用的是：

删除您可能尝试过的所有 nvidia 产品：sudo apt --purge remove 'nvidia-*'
从 nvidia 网站下载最新的 Nvidia 驱动程序并使其可执行。
重新启动以恢复模式（或不运行 ax 服务器）并运行驱动程序安装程序，即使它说您的系统上没有找到 gpu
删除/etc/X11/xorg.conf你可能有
reboot通常情况下
nvidia-prime如果尚未安装，请安装
sudo prime-select nvidia
更新/usr/share/X11/xorg.conf.d/10-amdgpu.conf 替换驱动程序modesetting

Section "OutputClass"
        Identifier "AMDgpu"
        MatchDriver "amdgpu"
        Driver "modesetting"
EndSection

更新为类似以下内容：

Section "OutputClass"
    Identifier "nvidia"
    MatchDriver "nvidia-drm"
    Driver "nvidia"
    Option "AllowEmptyInitialConfiguration"
    ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg"
    Option "PrimaryGPU" "Yes"
    Option "AllowExternalGpus" "True"
EndSection

创建两个文件，内容optimus.desktop如下：/etc/xdg/autostart//usr/share/gdm/greeter/autostart/

[Desktop Entry]
Type=Application
Name=Optimus
Exec=sh -c "xrandr --setprovideroutputsource modesetting 0; xrandr --auto"
NoDisplay=true
X-GNOME-Autostart-Phase=DisplayServer

（@generix 在那里说， modesetting NVIDIA-0;但对我来说，它从来没有像那样起作用。然而它可以与一起使用modesetting 0;）

reboot
通过运行测试一切是否正常：__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo | grep vendor 如果它没有返回 nvidia 的行，那就不好了在我的情况下，我得到：

server glx vendor string: NVIDIA Corporation
client glx vendor string: NVIDIA Corporation
OpenGL vendor string: NVIDIA Corporation

另一项检查是，运行nvidia-smi会列出至少一些进程。

而且我可以在外部显示器上获得 nvidia gpu 的信号，正如我想要的那样:)

谢谢 ;）

Answer

经过长时间的斗争，我实际上已经能够根据以下评论解决我的问题：https://forums.developer.nvidia.com/t/nvidia-xconfig-doesnt-do-what-i-want-it-to-nor-does-nvidia-settings/107883/7

因此，我认为了解xorg.conf在这方面无法帮助您是至关重要的。无论我做什么，我都无法在的情况下获得任何结果xorg.conf。

对我有用的是：

删除您可能尝试过的所有 nvidia 产品：sudo apt --purge remove 'nvidia-*'
从 nvidia 网站下载最新的 Nvidia 驱动程序并使其可执行。
重新启动以恢复模式（或不运行 ax 服务器）并运行驱动程序安装程序，即使它说您的系统上没有找到 gpu
删除/etc/X11/xorg.conf你可能有
reboot通常情况下
nvidia-prime如果尚未安装，请安装
sudo prime-select nvidia
更新/usr/share/X11/xorg.conf.d/10-amdgpu.conf 替换驱动程序modesetting

Section "OutputClass"
        Identifier "AMDgpu"
        MatchDriver "amdgpu"
        Driver "modesetting"
EndSection

更新为类似以下内容：

Section "OutputClass"
    Identifier "nvidia"
    MatchDriver "nvidia-drm"
    Driver "nvidia"
    Option "AllowEmptyInitialConfiguration"
    ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg"
    Option "PrimaryGPU" "Yes"
    Option "AllowExternalGpus" "True"
EndSection

创建两个文件，内容optimus.desktop如下：/etc/xdg/autostart//usr/share/gdm/greeter/autostart/

[Desktop Entry]
Type=Application
Name=Optimus
Exec=sh -c "xrandr --setprovideroutputsource modesetting 0; xrandr --auto"
NoDisplay=true
X-GNOME-Autostart-Phase=DisplayServer

（@generix 在那里说， modesetting NVIDIA-0;但对我来说，它从来没有像那样起作用。然而它可以与一起使用modesetting 0;）

reboot
通过运行测试一切是否正常：__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo | grep vendor 如果它没有返回 nvidia 的行，那就不好了在我的情况下，我得到：

server glx vendor string: NVIDIA Corporation
client glx vendor string: NVIDIA Corporation
OpenGL vendor string: NVIDIA Corporation

另一项检查是，运行nvidia-smi会列出至少一些进程。

而且我可以在外部显示器上获得 nvidia gpu 的信号，正如我想要的那样:)

谢谢 ;）

Question 2

同时发现解决方案@bluehipy 非常有帮助，让我的运行 Ubuntu 20.04 的 Acer Predator Helios 300 与外接显示器配合使用，并正确安装 NVIDIA/CUDA 堆栈以进行深度学习工作，因为它会导致问题。

当我考虑实际退回 Acer Predator Helios 300 并查看带有 eGPU 的 Dell XPS 13 是否可以在本地调试机器学习/数据科学模型并在云端进行实际训练时用于“瘦客户端”类型的工作流程时，我才发现了这个线程。

那么，如果其他人在使他们的笔记本电脑工作时遇到困难，不妨将我的小调整添加到原始说明中？

先决条件：

sudo apt install gcc make mesa-utils mpich

安装 NVIDIA 驱动程序

对我有用的是：

删除您可能尝试过的所有 nvidia 产品：sudo apt --purge remove nvidia-*
原始说明说下载最新的驱动程序，但你可能希望从中找到驱动程序版本最新的 CUDA 工具包所以在安装时检查一下。可能与最新的 NVIDIA 驱动程序兼容吗？你需要检查旧驱动程序最有可能与 CUDA 工具包驱动程序版本匹配，例如，在执行这些指令时，匹配版本为 470.57.02（NVIDIA-Linux-x86_64-470.57.02.run）。
在恢复模式下重新启动（或不运行 ax 服务器）并运行驱动程序安装程序，即使它说你的系统上没有找到 gpu（降到 root 状态，例如cd ../home/username/Downloads和./NVIDIA-Linux-x86_64-470.74.run）
删除/etc/X11/xorg.conf你可能有
重新启动（点击eUbuntu 的 grub 菜单并添加nomodeset在最后）
如果尚未安装，请安装 nvidia-prime
sudo prime-select nvidia
更新/usr/share/X11/xorg.conf.d/10-amdgpu.conf驱动程序并将其替换为modesetting

Section "OutputClass" 
    Identifier "AMDgpu" 
    MatchDriver "amdgpu" 
    Driver "modesetting"
EndSection

使用类似以下命令创建 nvidia 配置文件 ( sudo gedit /usr/share/X11/xorg.conf.d/10-nvidia.conf)：

Section "OutputClass" 
    Identifier "nvidia" 
    MatchDriver "nvidia-drm" 
    Driver "nvidia" 
    Option "AllowEmptyInitialConfiguration" 
    ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg" 
    Option "PrimaryGPU" "Yes" 
    Option "AllowExternalGpus" "True"
EndSection

optimus.desktop10在中创建两个文件/etc/xdg/autostart/，/usr/share/gdm/greeter/autostart/内容如下：

[Desktop Entry]
Type=Application
Name=Optimus
Exec=sh -c "xrandr --setprovideroutputsource modesetting 0; xrandr --auto"
NoDisplay=true
X-GNOME-Autostart-Phase=DisplayServer

修改 grub因此 nomodeset 每次都存在： sudo gedit /etc/default/grub
重启
运行以下命令测试一切是否正常：__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo | grep vendor
检查是否nvidia-smi会列出至少一些流程。

| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC 
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.
|   0  NVIDIA GeForce ...  Off  | 00000000:01:00.0  On |                  N/A
| N/A   42C    P8    14W /  N/A |    264MiB /  5946MiB |      1%      Default

安装 CUDA 工具包

最新的 CUDA 工具包在指令cuda_11.4.2_470.57.02_linux.run安装时，无需重新安装 NVIDIA 驱动程序

wget https://developer.download.nvidia.com/compute/cuda/11.4.2/local_installers/cuda_11.4.2_470.57.02_linux.run
sudo sh cuda_11.4.2_470.57.02_linux.run

CUDA 工具包安装

验证 CUDA 安装

看https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#install-samples

先决条件：（如果您希望正确编译所有样本）从：

sudo apt-get install g++ freeglut3-dev build-essential libx11-dev \
    libxmu-dev libxi-dev libglu1-mesa libglu1-mesa-dev libfreeimage-dev

例如./deviceQuery返回：

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "NVIDIA GeForce RTX 3060 Laptop GPU"
  CUDA Driver Version / Runtime Version          11.4 / 11.4
  CUDA Capability Major/Minor version number:    8.6
  Total amount of global memory:                 5947 MBytes (6235422720 bytes)
  (030) Multiprocessors, (128) CUDA Cores/MP:    3840 CUDA Cores
  GPU Max Clock rate:                            1425 MHz (1.42 GHz)

...

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 11.4, CUDA Runtime Version = 11.4, NumDevs = 1
Result = PASS

cudnn 安装

参见指南https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

下载适用于 CUDA 11.4 的 cuDNN v8.2.4（2021 年 9 月 2 日）

-> Linux 的 cuDNN 库（x86_64），例如cudnn-11.4-linux-x64-v8.2.4.15.tgz

Answer

同时发现解决方案@bluehipy 非常有帮助，让我的运行 Ubuntu 20.04 的 Acer Predator Helios 300 与外接显示器配合使用，并正确安装 NVIDIA/CUDA 堆栈以进行深度学习工作，因为它会导致问题。

当我考虑实际退回 Acer Predator Helios 300 并查看带有 eGPU 的 Dell XPS 13 是否可以在本地调试机器学习/数据科学模型并在云端进行实际训练时用于“瘦客户端”类型的工作流程时，我才发现了这个线程。

那么，如果其他人在使他们的笔记本电脑工作时遇到困难，不妨将我的小调整添加到原始说明中？

先决条件：

sudo apt install gcc make mesa-utils mpich

安装 NVIDIA 驱动程序

对我有用的是：

删除您可能尝试过的所有 nvidia 产品：sudo apt --purge remove nvidia-*
原始说明说下载最新的驱动程序，但你可能希望从中找到驱动程序版本最新的 CUDA 工具包所以在安装时检查一下。可能与最新的 NVIDIA 驱动程序兼容吗？你需要检查旧驱动程序最有可能与 CUDA 工具包驱动程序版本匹配，例如，在执行这些指令时，匹配版本为 470.57.02（NVIDIA-Linux-x86_64-470.57.02.run）。
在恢复模式下重新启动（或不运行 ax 服务器）并运行驱动程序安装程序，即使它说你的系统上没有找到 gpu（降到 root 状态，例如cd ../home/username/Downloads和./NVIDIA-Linux-x86_64-470.74.run）
删除/etc/X11/xorg.conf你可能有
重新启动（点击eUbuntu 的 grub 菜单并添加nomodeset在最后）
如果尚未安装，请安装 nvidia-prime
sudo prime-select nvidia
更新/usr/share/X11/xorg.conf.d/10-amdgpu.conf驱动程序并将其替换为modesetting

Section "OutputClass" 
    Identifier "AMDgpu" 
    MatchDriver "amdgpu" 
    Driver "modesetting"
EndSection

使用类似以下命令创建 nvidia 配置文件 ( sudo gedit /usr/share/X11/xorg.conf.d/10-nvidia.conf)：

Section "OutputClass" 
    Identifier "nvidia" 
    MatchDriver "nvidia-drm" 
    Driver "nvidia" 
    Option "AllowEmptyInitialConfiguration" 
    ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg" 
    Option "PrimaryGPU" "Yes" 
    Option "AllowExternalGpus" "True"
EndSection

optimus.desktop10在中创建两个文件/etc/xdg/autostart/，/usr/share/gdm/greeter/autostart/内容如下：

[Desktop Entry]
Type=Application
Name=Optimus
Exec=sh -c "xrandr --setprovideroutputsource modesetting 0; xrandr --auto"
NoDisplay=true
X-GNOME-Autostart-Phase=DisplayServer

修改 grub因此 nomodeset 每次都存在： sudo gedit /etc/default/grub
重启
运行以下命令测试一切是否正常：__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo | grep vendor
检查是否nvidia-smi会列出至少一些流程。

| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC 
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.
|   0  NVIDIA GeForce ...  Off  | 00000000:01:00.0  On |                  N/A
| N/A   42C    P8    14W /  N/A |    264MiB /  5946MiB |      1%      Default

安装 CUDA 工具包

最新的 CUDA 工具包在指令cuda_11.4.2_470.57.02_linux.run安装时，无需重新安装 NVIDIA 驱动程序

wget https://developer.download.nvidia.com/compute/cuda/11.4.2/local_installers/cuda_11.4.2_470.57.02_linux.run
sudo sh cuda_11.4.2_470.57.02_linux.run

CUDA 工具包安装

验证 CUDA 安装

看https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#install-samples

先决条件：（如果您希望正确编译所有样本）从：

sudo apt-get install g++ freeglut3-dev build-essential libx11-dev \
    libxmu-dev libxi-dev libglu1-mesa libglu1-mesa-dev libfreeimage-dev

例如./deviceQuery返回：

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "NVIDIA GeForce RTX 3060 Laptop GPU"
  CUDA Driver Version / Runtime Version          11.4 / 11.4
  CUDA Capability Major/Minor version number:    8.6
  Total amount of global memory:                 5947 MBytes (6235422720 bytes)
  (030) Multiprocessors, (128) CUDA Cores/MP:    3840 CUDA Cores
  GPU Max Clock rate:                            1425 MHz (1.42 GHz)

...

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 11.4, CUDA Runtime Version = 11.4, NumDevs = 1
Result = PASS

cudnn 安装

参见指南https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

下载适用于 CUDA 11.4 的 cuDNN v8.2.4（2021 年 9 月 2 日）

-> Linux 的 cuDNN 库（x86_64），例如cudnn-11.4-linux-x64-v8.2.4.15.tgz

Question 3

我有一个类似的设置，其中一个 NUC 运行 Ubuntu Mate 20.4，另一个 Razor Core X 配备 NVidia RTX 2060 Super。

基本上，我和你的情况一样，什么都没用。然后我搞砸了，不得不重新安装 Ubuntu。不过，我是在插入 eGPU 外壳的情况下这样做的。安装过程中，NVidia 440 驱动程序会自动安装。

这时我发现了以下帖子：

https://egpu.io/forums/thunderbolt-linux-setup/ubuntu-19-04-easy-to-use-setup-script-for-your-egpu/

使用存储库中提供的脚本，我终于可以让 GPU 工作了！我可以访问 CUDA，还可以将两个外部显示器与 eGPU 一起使用。

我希望这个脚本也能帮到你。祝你好运。

Answer

我有一个类似的设置，其中一个 NUC 运行 Ubuntu Mate 20.4，另一个 Razor Core X 配备 NVidia RTX 2060 Super。

基本上，我和你的情况一样，什么都没用。然后我搞砸了，不得不重新安装 Ubuntu。不过，我是在插入 eGPU 外壳的情况下这样做的。安装过程中，NVidia 440 驱动程序会自动安装。

这时我发现了以下帖子：

https://egpu.io/forums/thunderbolt-linux-setup/ubuntu-19-04-easy-to-use-setup-script-for-your-egpu/

使用存储库中提供的脚本，我终于可以让 GPU 工作了！我可以访问 CUDA，还可以将两个外部显示器与 eGPU 一起使用。

我希望这个脚本也能帮到你。祝你好运。

预期行为

预期行为

实际行为

我尝试过

其他说明：

谢谢你！

更新

答案1

答案2

先决条件：

安装 NVIDIA 驱动程序

安装 CUDA 工具包

验证 CUDA 安装

cudnn 安装

答案3

相关内容