我运行的是 Ubuntu 16.04 LTS,带有 CUDA 8.0、Tensorflow 1.1.0 和 Keras 2.0.6。系统有两个 TitanX GPU,我用它来训练卷积神经网络。我在 Screen 上运行这些过程,一个脚本通常需要大约两天才能完成。但是,系统通常会在训练期间崩溃并重新启动,我不确定原因。
我查看的日志并未表明系统重启的原因,而且我检查以确保没有任何组件过热。
有任何想法吗?
答案1
我通过拔下并重新安装系统中的所有 PSU 电缆解决了这个问题。大概是其中一根松了,导致防浪涌保护重新启动。显然,当这种情况发生时,主板会在屏幕上显示此信息,但每当这种情况发生时,我总是远程连接到服务器,所以我看不到该消息。