今天早上我来到办公室,发现 RAID-6、3ware 9650SE 控制器上的两个驱动器被标记为降级,并且正在重建阵列。在达到约 4% 后,第三个驱动器上出现 ECC 错误(这可能是在我尝试访问此 RAID 上的文件系统并从控制器收到 I/O 错误时发生的)。现在我处于这种状态:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312
u1-6 DISK OK - - p7 - 931.312
u1-7 DISK DEGRADED - - p3 - 931.312
u1-8 DISK WARNING - - p9 - 931.312
u1-9 DISK OK - - p10 - 931.312
u1/v0 Volume - - - - - 7450.5
检查有问题的三个驱动器上的 SMART 数据,两个被标记为“降级”的驱动器状况良好(已通过,没有任何 Current_Pending_Sector 或 Offline_Uncorrectable 错误),但被列为“警告”的驱动器有 24 个无法纠正的扇区。
并且,“重建”已停留在 4% 十个小时了。
所以:
我如何让它开始实际重建?这个特定的控制器似乎不支持/c2/u1 resume rebuild
,并且唯一看起来是选项的重建命令是想知道要添加哪个磁盘的命令(/c2/u1 start rebuild disk=<p:-p...> [ignoreECC]
根据帮助)。我在服务器中有两个热备用,我很乐意使用它们,但我不明白它在当前状态下会如何处理这些信息。
当 RAID-6 中有两个降级驱动器时,我可以拔出明显出现故障的驱动器(警告驱动器)吗?在我看来,最好的情况是拔出警告驱动器并告诉它在重建中使用我的一个热备用驱动器。但是,如果在有两个降级驱动器的 RAID-6 中拔出“好”驱动器,难道不会毁掉整个系统吗?
最后,我在其他帖子中看到有人提到这个控制器中有一个严重的错误,它会导致好的驱动器被标记为坏的,而升级固件可能会有所帮助。在这种情况下,刷新固件是一个危险的操作吗?对于重建但卡在 4% 的 RAID 来说,它可能会有所帮助还是会造成伤害?我是否遇到了这个错误?
非常感谢精神层面以外的建议。谢谢。
答案1
我设法通过发出以下命令来重建 RAID,而tw_cli
无需拔出任何驱动器或重新启动系统:
/c2/u1 set ignoreECC=on
重建并没有立即进行,但在我进行此更改后的第二天凌晨 2 点,重建开始,大约 6 小时后完成。出现 ECC 错误的驱动器有 24 个坏扇区,现在已被驱动器覆盖并重新分配(根据 SMART 数据)。文件系统似乎完好无损,但如果我获取这些扇区上的数据时遇到错误,我不会感到惊讶。
无论如何,我现在比以前好多了,而且很可能能够恢复大部分数据。一旦我恢复了所有数据,我就会弹出出现故障的驱动器,并将其重建到热备用驱动器上。