我有一个带有 4xRTX2080 的系统,主要用于 ml 模型训练。
Nvidia driver version: 430.26
CUDA Version: 10.2
我使用 VSCode 的远程开发扩展远程进入机器并开始训练。训练时,所有 4 个 GPU 的 GPU 使用率通常都高于 70%。
如果我让系统保持这种状态约 12 小时,ssh 连接就会中断,计算机将离线,但 PC 不会关机。如果我将键盘和显示器连接到它,显示器没有输出信号,PC 也不会对键盘输入做出反应。
对于我来说,能够在训练中停留更长时间而不用担心电脑会关机,这一点非常重要。
我该如何开始调试这个问题?