mdadm 阵列不断在单独的 SATA 控制器上丢失磁盘

mdadm 阵列不断在单独的 SATA 控制器上丢失磁盘

我的 Ubuntu Linux 服务器有一个 mdadm 阵列 (RAID 5),其中有四个 2TB SATA 磁盘,有时会“丢失”两个磁盘。到目前为止,重新启动并重新组装阵列一直运行良好。

硬件是一台戴尔 PowerEdge T20,配有 Exsys EX-3400 卡,可提供四个额外的 SATA 端口。RAID 阵列中的四个磁盘中有两个连接到 Exsys 卡,其余两个磁盘连接到板载 SATA 端口(其余板载 SATA 端口用于其他磁盘)。我使用智能实用程序检查了磁盘故障,它们看起来都很好。

RAID 中“丢失”的磁盘是连接到附加 SATA 控制器的两个磁盘,因此我更换了附加卡(没有帮助,症状相同)。我更换了相关磁盘的 SATA 电缆(没有帮助,症状相同)。

有谁知道这些问题的根源是什么,我还可以测试什么?

答案1

它不是 mdadm,mdadm 仅控制基于内核的软件 raid 功能。

您无需重新启动即可重新组装阵列。(也许仅当它是您的根分区时才如此。)

放置相应的内核消息(您可以使用命令获取它们dmesg)会很有帮助,尽管我几乎可以肯定地说,您的问题是什么原因造成的。尽管您说问题只出在连接的控制器上,但可能是电源的问题。

如果是电源问题,您可以轻松测试:只需将数据线插入附加 SATA 和原始 SATA 之间即可。问题是否仅发生在附加控制器上?

如果不是:电源有问题,您需要找到电源解决方案。对于“普通”硬件,我会购买更好的电源,对于您的情况,我建议您提出一个新的、更针对硬件的问题。

如果问题始终只出现在附加卡上的每条电源/数据线配置中:那么问题可能出在卡上。尝试换一张新卡,或者换一种类型。


Ps您可以根据需要插入电源和数据线,linux 软件 raid 很智能,可以识别硬件设备(他通过 raid 超级块中自动生成的密钥来实现这一点)。

答案2

我尝试了上述所有技巧。即使更换电缆(电源、SATA)也没有改变症状。连接到附加 SATA 控制器的两个磁盘不断从 mdadm 阵列中丢失,所以我又尝试了另一个 SATA 控制器。没有运气。我最终重新安排了整个机器,这样我就可以不用附加 SATA 控制器了。mdadm 阵列已经稳定了几天,我希望它能保持稳定。

相关内容