无法对 NVIDIA GPU 施加压力

无法对 NVIDIA GPU 施加压力

我有一台 24GB 的 RTX A5000,TDP 为 230W。我无法在 Ubuntu 20.04.5 LTS 上强调 GPU。每当我运行机器学习模型(GPU 上有 4-5GB RAM)时,屏幕都会挂起 4-5 秒,然后 PC 会重新启动。顺便说一句,我的工作站有一个 MSI BIOS(UEFI),没有集成显卡。

我在同一个 SSD(双启动)上安装了 Windows 11,使用 FurMark v1.31.0.0 GPU 压力测试基准工具将 GPU 压力提高到 100% TDP,没有问题。这里是结果。

我还运行了多个 ML 模型,这些模型占用了 GPU 上高达 20GB 的 RAM。没有任何问题。

这是怎么回事?这个问题有点类似

nvidia-smi这是Ubuntu 20.04 和 Windows 11 Home 21H2的输出。

Sat Oct  1 13:20:55 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A5000    Off  | 00000000:65:00.0  On |                    0 |
| 30%   32C    P8    14W / 230W |    198MiB / 23028MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1459      G   /usr/lib/xorg/Xorg                 39MiB |
|    0   N/A  N/A      2458      G   /usr/lib/xorg/Xorg                 55MiB |
|    0   N/A  N/A      2602      G   /usr/bin/gnome-shell               92MiB |
+-----------------------------------------------------------------------------+
Sat Oct  1 12:26:46 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 517.40       Driver Version: 517.40       CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A5000   WDDM  | 00000000:65:00.0  On |                    0 |
| 30%   42C    P2    64W / 230W |    146MiB / 23028MiB |      1%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      7780    C+G   C:\Windows\explorer.exe         N/A      |
|    0   N/A  N/A      8732    C+G   ...artMenuExperienceHost.exe    N/A      |
|    0   N/A  N/A      8792    C+G   ...n1h2txyewy\SearchHost.exe    N/A      |
|    0   N/A  N/A     11088    C+G   ...r\MSI_Network_Manager.exe    N/A      |
|    0   N/A  N/A     11092    C+G   ...SI\Fast Boot\FastBoot.exe    N/A      |
+-----------------------------------------------------------------------------+

我知道有一些 Windows8/10 专用的BIOS 中的设置。但我不认为这能解决 Windows 11 上的任何问题。

答案1

我通过私人支持单与 NVIDIA 进行了长时间的讨论。他们甚至不明白问题所在。但最终我们还是成功了。

简而言之,我的 PSU 有 600W 电源。主板和 GPU 的导轨相同(12*46=552W)。更多详细信息可参见这里

在查看崩溃转储后,我们拔下所有显示器并使用 SSH 连接到 PC。然后我们杀死XorgGDM。这次我们可以对 GPU 施加压力。

崩溃转储表明以下内容:

 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: Xorg: ../../../../dix/privates.c:384: dixRegisterPrivateKey: Assertion `!global_keys[type].created' failed.
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE)
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) Backtrace:
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 0: /usr/lib/xorg/Xorg (OsLookupColor+0x13c) [0x55af51a31ddc]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 1: /lib/x86_64-linux-gnu/libpthread.so.0 (funlockfile+0x60) [0x7f7b5d0e4420]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 2: /lib/x86_64-linux-gnu/libc.so.6 (gsignal+0xcb) [0x7f7b5cf1f00b]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 3: /lib/x86_64-linux-gnu/libc.so.6 (abort+0x12b) [0x7f7b5cefe859]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) unw_get_proc_name failed: no unwind info found [-10]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 4: /lib/x86_64-linux-gnu/libc.so.6 (?+0x0) [0x7f7b5cefe729]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 5: /lib/x86_64-linux-gnu/libc.so.6 (__assert_fail+0x46) [0x7f7b5cf0ffd6]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 6: /usr/lib/xorg/Xorg (dixRegisterPrivateKey+0x239) [0x55af518eeb39]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 7: /usr/lib/xorg/modules/libglamoregl.so (glamor_init+0xcf) [0x7f7b52ce037f]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) unw_get_proc_name failed: no unwind info found [-10]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 8: /usr/lib/xorg/modules/drivers/modesetting_drv.so (?+0x0) [0x7f7b5cbb1cfd]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) unw_get_proc_name failed: no unwind info found [-10]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 9: /usr/lib/xorg/modules/drivers/modesetting_drv.so (?+0x0) [0x7f7b5cba9fb6]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 10: /usr/lib/xorg/Xorg (AddGPUScreen+0xf5) [0x55af518d03b5]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 11: /usr/lib/xorg/Xorg (xf86PlatformMatchDriver+0xa44) [0x55af5192b4c4]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 12: /usr/lib/xorg/Xorg (xf86PlatformDeviceCheckBusID+0x225) [0x55af51930f05]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 13: /usr/lib/xorg/Xorg (config_fini+0xa4a) [0x55af5192d10a]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 14: /usr/lib/xorg/Xorg (config_fini+0x1408) [0x55af5192dac8]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 15: /usr/lib/xorg/Xorg (OsCleanup+0x5c1) [0x55af51a32831]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 16: /usr/lib/xorg/Xorg (WaitForSomething+0x193) [0x55af51a2b5f3]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 17: /usr/lib/xorg/Xorg (SendErrorToClient+0x117) [0x55af518cfd77]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 18: /usr/lib/xorg/Xorg (InitFonts+0x3b4) [0x55af518d4064]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 19: /lib/x86_64-linux-gnu/libc.so.6 (__libc_start_main+0xf3) [0x7f7b5cf00083]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE) 20: /usr/lib/xorg/Xorg (_start+0x2e) [0x55af518bdaae]
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE)
 Oct 12 09:21:47 MSI-X299-SLI-PLUS-7A93 /usr/lib/gdm3/gdm-x-session[2799]: (EE)

NVIDIA 得出的结论是驱动程序Xorg崩溃了modesetting_drv。他们让我联系 Ubuntu 支持人员,了解 Xorg 在 中崩溃的原因modesetting_drv。我没有联系他们。

NVIDIA 建议我要么换成 Windows,要么换成带板载显卡的主板,用它做显示器。但我将 Ubuntu 升级到 22.04 并使用 Wayland,效果很好。

顺便说一句,我们还测试了新的开源 NVIDIA 驱动程序,但情况仍然相同。如果有人需要完整的崩溃转储(~260MB),我可以将其上传到 wetransfer。

相关内容