NVidia 问题持续存在。晚上睡觉时出现故障

NVidia 问题持续存在。晚上睡觉时出现故障

有没有一种 100% 保证的方法可以将 NVidia 4090 设置为用于 AI,而不是用于图形或桌面?这样它就可以在进行小的驱动程序升级、CUDA 升级和小的操作系统升级后继续使用,或者只是在晚上关闭它,然后睡觉并在早上重新启动?

昨天,我升级到了 CUDA 12.0,同时将 NVidia 驱动程序升级到了 525.60.13 sudo sh cuda_12.0.0_525.60.13_linux.run

525.60.13 上的升级失败,因此我从没有桌面的紧急单用户模式运行了运行脚本。这样可以,但是没有音频。这应该是通过我的显示器通过英特尔集成 GPU 驱动的。在我升级 NVidia 产品之前,它还在运行。在没有音乐的情况下做了一段时间的推理工作。关机前我重新启动,音频又恢复了。做了更多的推理。关机,进入睡眠状态,醒来,启动我的系统,然后得到:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
5.17.0-1019-oem #20-Ubuntu SMP PREEMPT

显然,我几个小时前升级了最新的驱动程序。是的,我刚刚又重启了。是的,我花了几个小时谷歌搜索。请尽量帮助我,不要挑剔我的问题。 lshw看到设备。我试了很多方法。

sudo modprobe -a nvidia
modprobe: ERROR: ../libkmod/libkmod-module.c:838 kmod_module_insert_module() could not find module by name='off'
modprobe: ERROR: could not insert 'off': Unknown symbol in module, or unknown parameter (see dmesg)

昨晚这不是一个问题。:-(

答案1

我的设置是使用英特尔 CPU 集成 GPU 来运行显示器,而 NVidia 4090 则 100% 用于 AI/DNN/稳定扩散。似乎在升级 NVidia 或 CUDA 驱动程序的过程中,它会接管一切,以为我是一个典型的游戏玩家,希望 NVidia 来运行我的视频/声音。

为了修复,我会运行:prime-select intel这似乎可以修复我的音频。

问题是它还通过将所有 3 个 NVidia 内核模块列入黑名单来禁用它们/lib/modprobe.d/blacklist-nvidia.conf

如果nvidia未加载驱动程序,则 4090 无法工作。由于黑名单的工作方式,尝试手动加载内核模块时收到的错误令人困惑。

解决方案是从上面的 conf 文件中注释掉blacklist nvidia和行。然后您可以加载它,它就可以正常工作。alias nvidia offnvidiamodprobe

由于我没有使用 4090 作为显示设备,因此我将其他两个模块列入文件中的黑名单。

相关内容