为什么组件会导致崩溃

为什么组件会导致崩溃

我正在 docker 容器中运行 slurm(作业调度程序)和 tensorflow(带 GPU)。我的(hpc)计算机有 4 个计算节点。一个节点行为异常。它崩溃并出现多个不同的错误。memcp cpu->gpu 失败。已终止。崩溃。冻结。docker 错误。我换掉了 GPU,什么都没有。我重新安装了 centos 8,什么都没有。运行崩溃的时间大致相同,几乎就像过热一样(尽管我有各种风扇,并且我还有其他具有完全相同设置的节点)。

为了了解更多背景信息,我在 PROPER 插槽中安装了两张同步 RAM 卡。

我感觉好像是 CPU 或主板坏了?但是 CPU 看起来没有烧坏什么的。

答案1

事实证明,问题在于我从亚马逊购买的 RAM 是假货。

相关内容