在 3ware 9690SA-8I 上重建阵列

在 3ware 9690SA-8I 上重建阵列

TL;DR 版本

  1. RAID10 阵列工作正常
  2. 作为维护的一部分重新启动服务器
  3. 阵列无法操作(无法进行任何访问)
  4. 控制器日志显示单个驱动器损坏
  5. 移除驱动器并测试 - 未发现坏扇区
  6. 谨慎行事,用已知良好的驱动器替换驱动器
  7. 控制器不会在新驱动器上重建阵列
  8. 即使只有 1 个驱动器发生故障,控制器也会使整个 RAID10 阵列无法访问

下面是详细的版本:

我在 Ubuntu 1110 服务器上运行的 3ware 9690 卡上有一个 RAID10(8x1T​​B)阵列。

由于内核更新,我安排了一次重启,之后阵列就无法访问了。我检查了阵列中驱动器的状态,发现驱动器已经坏了,但控制器已将整个阵列置于“无法操作”状态,而不是简单地降级(现在 RAID 有什么意义 ;-)。

取出“死机”的驱动器后,我进行了快速测试,发现它完全正常,并且没有发现坏扇区。

我尝试将驱动器放回去,但阵列仍将磁盘标记为降级(记住序列号或其他内容??)并且整个阵列无法操作......

因此,我将其换成已知可以正常工作的驱动器(容量不同,但更大 - 应该仍然可以工作),并使用新驱动器作为替换启动重建。此操作立即失败,并显示错误“(0x0B:0x0033): 单元繁忙:无法在单元 0 上启动重建”。该单元不应处于繁忙状态,因为它尚未安装(卡本身在 lshw 中列出,但它提供的阵列未列出)。

我现在几乎陷入了僵局,我不明白 RAID10 上怎么会出现单个驱动器故障,导致整个阵列无法访问,降级我可以理解,但无法访问?我不认为控制器有故障,因为在重新启动之前它完全正常。


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

答案1

联系了 LSI 支持,他们的一名二级技术人员疯狂地编写了一个脚本和固件破解程序,使阵列进入常规降级状态。
从此,一切照常,将新磁盘加入阵列并重建。

相关内容