50 台 SuperMicro 机器出现 BSOD 0x09c

50 台 SuperMicro 机器出现 BSOD 0x09c

对于一个项目,我们有 50 台服务器,它们都配备了(通常)相同的硬件。我们这里的问题非常严重,并且发生在所有机器上。尽管我们付出了很多努力,并联系了制造商和软件开发商,但每个人都互相指责,甚至拒绝告诉我发生了什么事情。

首先让我描述一下设置。这是“服务器级”硬件。对于我的第一次体验,服务器级是我一生中最大的失望。

  • SuperMicro X10SDV-8C+-LN2F
  • Intel Xeon D-1540(主板内置)
  • 定制设计的1U机箱或SuperMicro原装机箱
  • 480 瓦服务器电源或 200 瓦 SuperMicro 原装电源
  • 三星 Evo 850 500 GB 固态硬盘
  • 32 GB DDR4-2133 ECC 或非 ECC(但不能在同一台服务器中混合使用)
  • 华硕 GT730 4GB DDR3 GPU
  • GPU 安装在 PCIe 转接卡(不是带状卡)上,不知道是中国产还是 SuperMicro 原装

系统上运行 - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VM 运行 GPU 密集型任务 - 此系统为原装,完全没有超频/降频

症状 - 随机 BSOD 0x09c(又名 Machine_Check_Exception):有时系统运行一周而没有问题,有时仅 10 分钟后就会崩溃,但大多数时候它会运行几个小时。

已经尝试/检查过:

  • BIOS 已更新至最新版本(我现在认为这可以缩短系统稳定的时间,但这可能是随机的)。
  • Windows 已更新至最新版本。
  • VMWare 已更新至最新版本。
  • 更换了所有组件并尝试了所有不同的选项,甚至尝试了台式机 ATX PSU 和 M.2 SSD。
  • 使用 Ubuntu 从头安装所有系统。我不熟悉 Linux,从未见过 Linux BSOD,而且由于服务器系统是无头的,所以我仍然没有见过,而且我在 DC 中尝试过。结果:系统会挂起,重启后 Linux 报告 XORG 崩溃(与 GPU 有关)。
  • 将 BIOS 中的 GPU 设置更改为“4G 以上”,BIOS 的其余部分为出厂默认设置。

其他信息:

  • 系统位于数据中心。温度、空气、电力和网络均处于最佳状态。
  • 温度远低于工厂最高温度
  • 我们有完全相同的软件安装在台式电脑(配有台式硬件)上运行。这些系统可以正常运行,即使每月有 1/100 的 PC 崩溃。
  • 我已经联系了 VMWare,他们说这是硬件问题
  • 我已经联系了 SuperMicro,他们除了一些事情之外什么也没说,而且已经尝试过了,而且这仍然可能是软件问题。

我们很绝望。幸运的是,我们运行的应用程序有点冗余。如果一台服务器及其上的虚拟机掉线,这不是什么大问题,其他服务器将在 5 分钟内接管负载,但按照这个速度,我需要整天在线才能重新启动服务器。

我拥有丰富的硬件知识,但这超出了我的能力范围,我整天都在搜索这个问题,尝试了各种不同的方法,已经超过一个月了。这些主板被托管服务提供商大规模使用,这让我怀疑主板本身没有问题。这绝对不是 RMA 的特定硬件问题,因为所有 50 块主板都有相同的症状。我们唯一不同的是 GPU。结合 Linux 实验,我怀疑这肯定是 PCIe 通道上的问题。GPU 本身在台式机主板上很稳定。尽管内存容量很大,但这是一个不消耗太多电量的小型 GPU。我怀疑是中国的转接卡的问题,但我们也使用 SuperMicro 认证的转接卡,它们根本没有显示出任何改善。

我非常渴望在这里找到解决方案。首先要确定确切原因。我们愿意向能够分析一些转储并向我们提供更多详细信息(甚至更好的是,提供解决方案)的专家支付丰厚的赏金。

亲切的问候,

西蒙

答案1

好吧,现在已经很晚了,我想这个问题到现在应该已经解决了吧?无论如何,0x9C 通常意味着 MCE 硬件故障,我们的 GPU 系统运行 Linux 作为主机操作系统,它报告这些错误比 Windows 更详细一些。

无论如何,不​​久前,惠普生产的类似硬件上就随机出现了这些问题,最终导致 GPU 的供电不足。具体来说,应该是 PCIe 端口本身提供的 75W 供电。

我们用 PCIe 分线板上的万用表确认了这一点。当 GPU 和 10Gbe 网卡同时受到严重影响时,电压会下降。虽然主板能够为 x16 插槽提供 75W 的功率,但当其他卡都在消耗功率时,供电部分会有些吃力。

此处的立管可能有问题,在高电流负载下会导致电压下降。

答案2

感谢您的回复。现在已经 3 年过去了。Supermicro 拒绝尽一切可能帮助我们。我们送来了多台机器(与我们建造的完全一样)。据他们说,他们对这些机器进行了数周的压力测试,从未崩溃过。

至于立管,将 GPU 直接放入插槽中也会出现同样的错误。

Supermicro 一直将责任归咎于 VMWare,在我拿到他们新发布的同款主板之前,我倾向于相信这一点。Supermicro 没有任何评论,几个月后,Xeon D-1540 主板就更新为 Xeon D-1541。除了较新的 CPU(也一样,只是时钟速度略高)外,新主板基本相同。更新后的主板还具有额外的风扇接头。

这些主板不再崩溃。在完全相同的负载下,它们可以连续运行数月而不会出现问题。我甚至在这里克隆了机器,它们运行的​​硬件和软件与崩溃的机器完全相同。

这多少证实了我的怀疑。Supermicro 知道主板有问题,但不想告诉我原因,因为我最终有近 100 块主板因崩溃而无法使用。他们从来没有 RMA 或修复,甚至没有 BIOS 更新,所以一定是主板出了问题。

不用说,这是我第一次也是最后一次使用 Supermicro。当然,任何品牌都可能出现这种情况,但支持服务却低于零。

相关内容