fusionr -v /dev/nvidia* 和 lsof 没有响应
在我们的 A100 机器上,我们经常有僵尸进程,它们在停止后仍然分配内存。我通常用来fuser -v /dev/nvidia*确定所有进程的 PID,并使用 或 杀死kill它们fuser -k /dev/nvidia*。 fuser总是需要一段时间才能返回结果。但现在,命令fuser -v和fuser -k无限期挂起,在任何合理的时间内都没有响应。例如,上次,它跑了一个周末没有回来。我最终重新启动了服务器。 fuser -v /dev/nvidia0表现出相同的异常行为,就像 一样lsof /dev/nvidia0。当我在网上查找这个问题时,我只得到了上面...