在 cuda 上运行的进程终止,没有记录任何内容

在 cuda 上运行的进程终止,没有记录任何内容

我有一个在远程服务器上的 CUDA 上运行的进程,在某个时刻,它被终止,没有将任何内容记录到 stderr。它频繁地向标准输出输出,因此我可以通过查看其日志来确定它被中断的时间。

我检查了dmesg/var/log/syslog,在中断期间没有任何事情。

最重要的是,另一个进程也在 CUDA 上运行,在不同的 GPU 中,并且继续运行,没有出现任何问题。

这不是我第一次遇到这种情况,我仍然不知道如何确定哪里出了问题。还有什么我可以检查的吗?

我正在运行 Ubuntu 18.04 和 CUDA 10.0,我的进程是用 Python 和 pytorch 编写的。

相关内容