TL;DR 版本
- RAID10 阵列工作正常
- 作为维护的一部分重新启动服务器
- 阵列无法操作(无法进行任何访问)
- 控制器日志显示单个驱动器损坏
- 移除驱动器并测试 - 未发现坏扇区
- 谨慎行事,用已知良好的驱动器替换驱动器
- 控制器不会在新驱动器上重建阵列
- 即使只有 1 个驱动器发生故障,控制器也会使整个 RAID10 阵列无法访问
下面是详细的版本:
我在 Ubuntu 1110 服务器上运行的 3ware 9690 卡上有一个 RAID10(8x1TB)阵列。
由于内核更新,我安排了一次重启,之后阵列就无法访问了。我检查了阵列中驱动器的状态,发现驱动器已经坏了,但控制器已将整个阵列置于“无法操作”状态,而不是简单地降级(现在 RAID 有什么意义 ;-)。
取出“死机”的驱动器后,我进行了快速测试,发现它完全正常,并且没有发现坏扇区。
我尝试将驱动器放回去,但阵列仍将磁盘标记为降级(记住序列号或其他内容??)并且整个阵列无法操作......
因此,我将其换成已知可以正常工作的驱动器(容量不同,但更大 - 应该仍然可以工作),并使用新驱动器作为替换启动重建。此操作立即失败,并显示错误“(0x0B:0x0033): 单元繁忙:无法在单元 0 上启动重建”。该单元不应处于繁忙状态,因为它尚未安装(卡本身在 lshw 中列出,但它提供的阵列未列出)。
我现在几乎陷入了僵局,我不明白 RAID10 上怎么会出现单个驱动器故障,导致整个阵列无法访问,降级我可以理解,但无法访问?我不认为控制器有故障,因为在重新启动之前它完全正常。
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
答案1
联系了 LSI 支持,他们的一名二级技术人员疯狂地编写了一个脚本和固件破解程序,使阵列进入常规降级状态。
从此,一切照常,将新磁盘加入阵列并重建。