训练机器学习模型时系统关闭

训练机器学习模型时系统关闭

我有一个带有 4xRTX2080 的系统,主要用于 ml 模型训练。

Nvidia driver version: 430.26
CUDA Version: 10.2

我使用 VSCode 的远程开发扩展远程进入机器并开始训练。训练时,所有 4 个 GPU 的 GPU 使用率通常都高于 70%。

如果我让系统保持这种状态约 12 小时,ssh 连接就会中断,计算机将离线,但 PC 不会关机。如果我将键盘和显示器连接到它,显示器没有输出信号,PC 也不会对键盘输入做出反应。

对于我来说,能够在训练中停留更长时间而不用担心电脑会关机,这一点非常重要。

我该如何开始调试这个问题?

相关内容