更换了电脑上的所有内容,但仍然经常崩溃/死机

更换了电脑上的所有内容,但仍然经常崩溃/死机

我在设置第二台挖矿设备时遇到了各种各样的问题。这台电脑非常不稳定,在死机前可以运行几分钟到几个小时。当它死机时,机器会向网络发送暂停数据包,从而消除同一交换机上的其他任何东西,详情如下这里。由于该机器没有头,而且我只能通过 SSH 访问它,因此我无法从机器上获取有关问题的任何信息。

为了诊断这个问题,我更换了每一个部件:处理器、电源、电源线、内存。在移动 GPU 之前,我还在另一台机器上彻底测试了所有 GPU。

在我上次的测试中,矿机 B 装在第二个机箱中运行,矿机 C 则在没有机箱的情况下运行。矿机 C 运行良好,没有任何问题或不稳定。矿机 B 经常崩溃。

我从矿工 C 上取下主板(包括处理器、内存和硬盘),并将其与矿工 B 的主板交换。

现在矿工 C 崩溃了,而矿工 B 没问题。

正如我所说,我已经更换了不同的电源和电缆。

我现在怀疑这个“案件”与此事有某种关系。

我说的是机箱。机箱实际上只是一个带有 GPU 支架的框架。主板用螺丝固定在一块塑料板上。

有人能告诉我发生了什么事以及我下一步可以尝试什么吗?

这 3 台机器的主板和 Ubuntu 服务器操作系统安装都相同。机器 A 运行 12 个 GPU,完全没有稳定性问题。

相关内容