fusionr -v /dev/nvidia* 和 lsof 没有响应

fusionr -v /dev/nvidia* 和 lsof 没有响应

在我们的 A100 机器上,我们经常有僵尸进程,它们在停止后仍然分配内存。我通常用来fuser -v /dev/nvidia*确定所有进程的 PID,并使用 或 杀死kill它们fuser -k /dev/nvidia*

fuser总是需要一段时间才能返回结果。但现在,命令fuser -vfuser -k无限期挂起,在任何合理的时间内都没有响应。例如,上次,它跑了一个周末没有回来。我最终重新启动了服务器。

fuser -v /dev/nvidia0表现出相同的异常行为,就像 一样lsof /dev/nvidia0。当我在网上查找这个问题时,我只得到了上面提到的僵尸进程问题的答案,但没有专门针对当fuser或被lsof挂起的情况的问题。

如何在不重新启动机器的情况下理想地调试/解决这个问题?

系统运行Ubuntu 20.04。

相关内容