我正在尝试调试某个程序我的使用 CUDA(特别是 CUDA 图)。该程序(有时)会触发错误,然后相对优雅地终止。然而,在它失败后,当我尝试使用 GPU 运行任何其他程序时,它们在启动时立即挂起,并且无法被杀死,即使是kill -KILL
root 也不行。
查看我的 dmesg 输出(这是一台 Linux 机器),我看到以下尾随行:
[ 155.786155] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCntr from proprietary module nvidia, inheriting taint.
[ 155.813728] nvidia-uvm: Loaded the UVM driver, major device number 236.
[ 209.863685] NVRM: GPU at PCI:0000:01:00: GPU-82f73d0a-cec0-ed8b-f7da-e87d7ed83f69
[ 209.863689] NVRM: Xid (PCI:0000:01:00): 31, pid=2823, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7fcb_83c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ
[ 225.483961] NVRM: Xid (PCI:0000:01:00): 31, pid=3114, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7f3e_d5c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ
这是怎么回事?
有关我的系统的一些信息:Devuan Daedalus,内核 6.1.20-1 。 CPU是Intel i5 7600K。如果任何其他信息可能有用,请询问,我会添加它。