我有一台运行 flexraid 的服务器,几周以来,我遇到这样的问题:每当服务器在 RAID 上执行一些繁重的操作时,就会丢失一个或多个硬盘。
为了调查问题的根源,我已经检查了以下内容:
- 我非常确定硬盘本身没有故障。SMART 检查全部成功,crystaldiskinfo 告诉我一切正常,我已经用一个全新的硬盘替换了其中一个硬盘,有时也会偶尔掉落。
- 我以为 PSU 可能不够用,但事实并非如此。我有一个 430W PSU,用于带有集成 GPU 和 10 个 5400RPM 硬盘的 mini ITX 主板。使用一些在线计算器后,这应该还可以,而且硬盘掉线只是在对硬盘进行操作时才会发生,而不是在硬盘旋转时,而且我已将它们连接到两个单独的导轨上。
- 我现在正在研究的最后一件东西是 PCI Express 上的 SATA 控制卡。(就是这个:https://www.conrad.be/p/renkforce-0-10-poorten-sata-iii-controllerkaart-pcie-1374266)到目前为止,所有掉落的驱动器都是通过此控制器连接的,所以我认为控制器可能有故障。所有其他驱动器都直接连接到主板。
我现在的问题是:我的推理和推论是否正确?还是我的调查中遗漏了什么?另外,有人使用过 Marvell 88SE9705 芯片组的 SATA 控制器卡吗?这种卡似乎很难处理这么多硬盘?
答案1
因此,为了让这篇文章对后来遇到同样问题的人有用;正如很多人提到的那样,这确实是 SATA 控制器层面的问题。正是 SATA 控制器导致连接的驱动器在高负载下掉线。
最后我用这个替换了旧的 SATA 控制器:
那是一张 RAID 卡,我首先必须使用本教程更改芯片组固件,以使其在 JBOD 模式下运行:
我安装了这些组件并通过一根 SAS 到 4x SATA 电缆连接了我的硬盘,现在一切似乎都正常。对 flexraid 存储池进行了完整的验证/同步和同步。
谢谢大家的帮助。