我正在 docker 容器中运行 slurm(作业调度程序)和 tensorflow(带 GPU)。我的(hpc)计算机有 4 个计算节点。一个节点行为异常。它崩溃并出现多个不同的错误。memcp cpu->gpu 失败。已终止。崩溃。冻结。docker 错误。我换掉了 GPU,什么都没有。我重新安装了 centos 8,什么都没有。运行崩溃的时间大致相同,几乎就像过热一样(尽管我有各种风扇,并且我还有其他具有完全相同设置的节点)。
为了了解更多背景信息,我在 PROPER 插槽中安装了两张同步 RAM 卡。
我感觉好像是 CPU 或主板坏了?但是 CPU 看起来没有烧坏什么的。
答案1
事实证明,问题在于我从亚马逊购买的 RAM 是假货。