在我们的 A100 机器上,我们经常有僵尸进程,它们在停止后仍然分配内存。我通常用来fuser -v /dev/nvidia*
确定所有进程的 PID,并使用 或 杀死kill
它们fuser -k /dev/nvidia*
。
fuser
总是需要一段时间才能返回结果。但现在,命令fuser -v
和fuser -k
无限期挂起,在任何合理的时间内都没有响应。例如,上次,它跑了一个周末没有回来。我最终重新启动了服务器。
fuser -v /dev/nvidia0
表现出相同的异常行为,就像 一样lsof /dev/nvidia0
。当我在网上查找这个问题时,我只得到了上面提到的僵尸进程问题的答案,但没有专门针对当fuser
或被lsof
挂起的情况的问题。
如何在不重新启动机器的情况下理想地调试/解决这个问题?
系统运行Ubuntu 20.04。