重建具有两个故障驱动器的 RAID 10 阵列

重建具有两个故障驱动器的 RAID 10 阵列

我有一台专用服务器,其中有 4 块硬盘,配置为硬件 RAID 10,运行良好,直到昨天,几分钟后它开始随机崩溃。我联系了我的数据中心,他们运行了系统诊断程序,发现 RAID 10 阵列中的一块硬盘有故障,他们更换了该驱动器,它开始自动重建。然后他们以正常模式启动了系统,它正常工作了 15 分钟,然后又开始崩溃。我自己做了几个诊断,当我使用以下命令检查物理驱动器的状态时:

arcconf GETCONFIG 1 PD

我注意到 HDD 0,0 有 SMART 错误,我向 DC 报告了此事,他们确认了这一点并要求更换新设备,但他们建议我备份数据(~2TB),因为很可能会丢失数据。我备份了我的数据,然后他们更换了第二块 HDD。启动后,他们需要强制启动 RAID 控制器,系统以恢复模式启动。我认为他们第一次换错了驱动器,因为两个驱动器在不同的镜像集中同时发生故障的可能性极小,但这是另一个故事了……我的问题是第二块更换的 HDD 不会自行重建。我尝试使用以下命令清除该驱动器的元数据:

arcconf TASK START 1 DEVICE 0 0 CLEAR

然后将驱动器的状态设置为热备用

arcconf SETSTATE 1 DEVICE 0 0 HSP LOGICALDRIVE 0

因此它自动开始重建过程但没有成功。

我的 RAID 10 阵列数据是 4 个 HDD 驱动器,HDD 0,0 和 HDD 0,1 在镜像集中,HDD 0,2 和 HDD 0,3 在另一个中。

逻辑设备状态的输出是:arcconf getconfig 1 ld

https://dl.dropbox.com/u/10839791/ld.txt

物理驱动器状态的输出为:arcconf GETCONFIG 1 PD

https://dl.dropbox.com/u/10839791/pd.txt

控制器状态:

https://dl.dropbox.com/u/10839791/controller.txt

我的问题是,有没有什么方法可以让该驱动器自行重建而不丢失任何数据。

谢谢。

答案1

我认为答案可能是 Adaptec 控制器一次只能重建 1 个驱动器。

我在 RAID 10 中有一个 Adaptec 5805Z 控制器,该控制器有 4 个组。我们刚刚从每个组中更换了 1 个驱动器,目前只有 1 个组正在重建。我知道所有更换的驱动器都很好,因为我们在它们上运行了坏块,而且它们肯定比它们要更换的驱动器大。

@SkechBoy,你知道你的第一组重建是否在第二组重建开始之前完成吗?

更新:刚刚收到来自 Adaptec 的确认,“控制器通常一次重建一个段”。换句话说,您必须等待第一个 RAID 组重建后,它才会开始重建第二个 RAID 组。

相关内容