使用 CUDA 的进程陷入困境,然后所有其他进程也陷入困境 - 我该怎么办?

使用 CUDA 的进程陷入困境,然后所有其他进程也陷入困境 - 我该怎么办?

我正在使用 CUDA CUDA 12.1 编写一些程序,在 Linux 系统上运行(Devuan Daedalus,内核版本 6.1.27)。

由于某种原因(这可能是我的一个错误,尽管我有点怀疑) - 该过程在某个时刻卡住了。发送 SIGINT、SIGTERM 或 SIGKILL 没有任何效果。这个过程的细节并不重要,但是 - 它不执行文件 I/O,不使用网络,不使用任何其他外围设备 - 它只使用 CUDA API(具体来说,执行图),在内存中进行一些计算,并将消息打印到其标准输出。

所以,问题的第一部分:我怎样才能杀死这样的进程(除了重新启动机器)?

现在,在这个进程卡住之后 - 任何使用 CUDA API 的进程似乎也会在开始运行时(几乎)立即卡住。

因此,问题的第二部分是:我可以避免其他进程也陷入困境吗?

相关内容