为什么组件会导致崩溃

2024-9-14 • tag-icon

我正在 docker 容器中运行 slurm（作业调度程序）和 tensorflow（带 GPU）。我的（hpc）计算机有 4 个计算节点。一个节点行为异常。它崩溃并出现多个不同的错误。memcp cpu->gpu 失败。已终止。崩溃。冻结。docker 错误。我换掉了 GPU，什么都没有。我重新安装了 centos 8，什么都没有。运行崩溃的时间大致相同，几乎就像过热一样（尽管我有各种风扇，并且我还有其他具有完全相同设置的节点）。

为了了解更多背景信息，我在 PROPER 插槽中安装了两张同步 RAM 卡。

我感觉好像是 CPU 或主板坏了？但是 CPU 看起来没有烧坏什么的。

答案1

事实证明，问题在于我从亚马逊购买的 RAM 是假货。

答案1

相关内容