LSI RAID 阵列上持续存在多个介质错误

LSI RAID 阵列上持续存在多个介质错误

我们的一台带有板载 LSI 2308 RAID 控制器的 SuperMicro 服务器在由 4 个 Seagate 600 PRO SSD 驱动器(位于插槽 0、1、2、3)组成的主要 RAID10 阵列时出现问题。

它从一致性检查开始,导致出现大量以下错误:

Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: ( PD -:-:255 Location 0x2048421 VD 1)

一致性检查最终失败了。然后我决定不再信任该阵列,因此我重建了该阵列。我首先使用 ddrescue 创建了该阵列的映像。不幸的是,发生了一些轻微的数据丢失,但大多数数据都没有问题。

我使用 SeaTools 检查了所有硬盘。所有四个硬盘都通过了所有测试,所以我认为它们应该没问题。我借此机会升级了控制器和硬盘上的固件。删除 VD 并重新创建新的 RAID 10 阵列后,我将 ddrescue 映像复制回硬盘,没有任何问题。系统启动正常,一切似乎都正常。等待阵列同步后,我又运行了一次一致性检查,结果再次出现许多无法纠正的多重介质错误。

我断定其中一个或多个硬盘一定有故障,因此我购买了两个新的(更大尺寸)三星 SSD,并创建了一个仅由这两个新硬盘组成的新 RAID1 设备。我使用了不同的插槽作为额外的预防措施(插槽 6、7)。不幸的是,在将数据复制回来并同步阵列后,一致性检查仍然会抛出无法纠正的多个介质错误,尽管这次只有两个坏扇区。

请注意,我重新制作阵列时,坏扇区的数量和坏扇区的位置都发生了变化。

服务器现在运行正常,我检查了两个坏扇区,目前它们不包含任何文件。阵列仍然不可信任,我也没有其他办法。我还能尝试什么来修复此问题?

相关内容