Supermicro H8DGU-F 在 CentOS7 上挂起

Supermicro H8DGU-F 在 CentOS7 上挂起

我尝试修复我们的旧故障刀片,用现在便宜的旧 Supermicro 1U 服务器替换节点。我自掏腰包,所以价格很重要(公司不想购买新设备)。服务器包含来自优质品牌(不是 Ablecom)的带优质电容的 Supetmicro PSU(我检查了其中 3 个的值和 ESR,它们都很好)、Supermicro H8DGU-F 主板(SR5670 + SP5100 芯片组)、2 个 Opteron 6238 12 核 CPU、2 个 Intel Kawela LAN。Infiniband ConnectX2 或 ConnectX3 卡插入此主板的唯一 PCIE 插槽(infiniband 不同,问题仍然存在)。我们使用 2019 年秋季的 CentOS-7 作为操作系统,但我购买服务器的商店说该问题也出现在 Windows 中。他们说他们选择了他们拥有的最好的产品并做了一些测试,但今天我再次在该硬件上遇到这个棘手的问题......问题是操作系统主要在 CentOS 启动时(初始化硬件时,在欢迎...文本之前)或系统处于负载下(科学计算,所有核心)时自发挂起。机器无法通过 ssh 访问,屏幕为空白,键盘或鼠标无反应。如果它在加载操作系统时挂起并且您没有按 Esc 显示消息,底部栏会继续移动一段时间,然后停止。如果按下 Esc,您可能会看到它在检查 HDD 或初始化 Infiniband 时挂起......BIOS 已更新到最新的 3.5c,CMOS 已清除,最佳默认值已加载。我使用 IPMI 监控温度,只用手指,没有什么不好的。IPMI 和 BIOS 中的电压都很好。12 V 导轨高负载下的纹波最大为 200 mV,我认为它不会导致挂起,并且有不同的电源。我买了 4 台服务器和 6 块 H8DGU-F 主板。两块 1.01 版主板都死机了(在负载 2 天后、负载数小时后、计算开始时或启动期间),同一库存的一块 1.01 版主板在最大负载下工作了 7 天,成功重启了约 10 次,一块 2.00 版主板的 CPU2 所有内存插槽都坏了(这无关紧要,已发送替换件),一块 2.00 版主板成功工作了 9 天,成功启动了约 10 次。这是什么原因?我不敢相信服务器主板竟然这么糟糕。这真是令人沮丧。新主板很贵,难道它们不应该按照价格可靠耐用吗?有人能告诉我这是什么原因吗?

(抱歉,这是关于主板的 IPMI 版本,所以我更正了主题)

答案1

看起来很奇怪,没有答案,也许只是主板太旧了。所以(部分)回答我的问题。我与我购买这些主板的其中一家公司进行了交谈。他们说这个型号(版本 1.01、2.00)有问题,其他商店确认版本 1.01 有问题。在 4 块 2.00 修订版主板中,一块在 CPU2 插槽中看不到内存,一块重新启动并出现网络问题,两块目前正在满负荷下进行测试。从 1.01 修订版开始,两块主板挂起(启动时、高负荷启动后立即挂起、高负荷数小时或约 2 天后挂起),一块主板在高负荷下工作了 2.5 周,一块主板在高负荷下工作了约 2 天(通常在服务器投入运行之前进行 15...20 次 CentOS-7 启动测试,因为有时这有助于在负载下尽早识别挂起)。因此,避免使用 H8DGU-F,它们似乎非常不耐用/不可靠,尽管便宜。就我的情况而言,我看不到其他选择,因为其他 Opteron 6000 主板的价格很高,所以我将检查是否有 3...4 个好的主板可用,可能有一块 H8DGi 或 H8DG6(它们是双芯片组版本并且具有板载 RAID 控制器,因此它们的价格要贵 2...5 倍)。

相关内容