我们有 6 台 Supermicro 服务器,所有服务器都具有相同的规格(或非常相似的规格),在过去的两周内,其中一台服务器在随机时间丢失了 NVMe 磁盘,原因是:
[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5
我们已经尝试过:
- 交换磁盘
- 交换 NVMe 电缆
- 更换 NVMe 控制器(主板)
- 更换背板
- 鉴于存储子系统的最新变化,从内核 4.5.0 降级至 4.4.2
- 升级磁盘和主板固件
- 更换主板
因此,它本质上是一台全新的服务器,只是我们没有重新安装 - 为什么?因为我想了解问题所在,如果重新安装解决了问题,我们永远不会知道为什么它发生在这台机器上,而不是我们的其他 5 台机器上。
- 驱动器运行时,未报告任何 SMART 或 nvme-cli 错误。
如果将驱动器换到另一个托架,它就可以正常工作,而将任何驱动器换到该托架中最终都会超时/出现故障。
CentOS 7(已安装最新补丁)
- 内核 4.5.0
- 2 个英特尔 DC3600 NVMe(2.5 英寸 FF)
- Intel公司C610/X99系列芯片组
- 完整
lspci -tvv
输出:https://gist.github.com/sammcj/8839c536b2cf6d4def8d2572eb1b4e8a - 完整内核配置:https://gist.github.com/sammcj/7d1e79775bf984424b92679d16c015c6
答案1
我在使用 Intel P4600 驱动器时也遇到过类似的故障(与您的不同),英特尔针对我们的情况做出的裁决是罕见的固件,其操作项是更换特定驱动器并将所有剩余驱动器上的固件更新为最新版本。YMMV。
您收到的错误意味着驱动器位于 PCIe 级别,甚至可以在某些基本的 NVMe 级别进行通信,但由于驱动器上的内部断言,它无法完成完全初始化(再次,基于我们驱动器的 FA 结果,它可能与您有所不同)。
答案2
致电 Supermicro 支持或使用完全不同的服务器。
您已经进行了比大多数人更多的故障排除,并且肯定遵循了您控制范围内的所有合理步骤。
Supermicro 设备相对便宜,但无法提供与戴尔或惠普系统同等水平的完善性。因此,请听听一位亲眼目睹过 Supermicro 大规模部署的人的看法...你可能只是得到了一个哑弹。