为什么我的 RAID 阵列没有重建?

为什么我的 RAID 阵列没有重建?

昨晚收到通知,服务器上的一个驱动器出现故障。今天早上去更换它,我们得到了以下信息。阵列的控制器配置报告看起来不错,但状态异常准备重建

 ~ # hpacucli controller all show config
Smart Array P400i in Slot 0 (Embedded)    (sn: XXXXXXXX     )
   array A (SAS, Unused Space: 0 MB)
   logicaldrive 1 (341.7 GB, RAID 5, Ready for Rebuild)
   physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 72 GB, OK)
   physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 72 GB, OK)
   physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 72 GB, OK)
   physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 146 GB, OK)
   physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 72 GB, OK)
   physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 72 GB, OK)

逻辑驱动器显示提示,奇偶校验初始化状态:初始化失败

~ # hpacucli controller slot=0 logicaldrive 1 show 
Smart Array P400i in Slot 0 (Embedded)
   array A
      Logical Drive: 1
         Size: 341.7 GB
         Fault Tolerance: RAID 5
         Heads: 255
         Sectors Per Track: 32
         Cylinders: 65535
         Strip Size: 64 KB
         Full Stripe Size: 320 KB
         Status: Ready for Rebuild
         Array Accelerator: Enabled
         Parity Initialization Status: Initialization Failed
         Unique Identifier: XXXXXXX
         Disk Name: /dev/cciss/c0d0
         Mount Points: /boot 191 MB, / 28.6 GB
         OS Status: LOCKED
         Logical Drive Label: XXXXX     6797

如果有帮助的话,数组配置:

 ~ # /usr/sbin/hpacucli ctrl slot=0 show
Smart Array P400i in Slot 0 (Embedded)
   Bus Interface: PCI
   Slot: 0
   Serial Number: XXXXXXXX     
   Cache Serial Number: XXXXXXXX
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Hardware Revision: B
   Firmware Version: 1.18
   Rebuild Priority: Low
   Expand Priority: Low
   Surface Scan Delay: 15 secs
   Surface Scan Mode: Idle
   Post Prompt Timeout: 0 secs
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Drive Write Cache: Disabled
   Total Cache Size: 256 MB
   Total Cache Memory Available: 208 MB
   No-Battery Write Cache: Disabled
   Cache Backup Power Source: Batteries
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK
   SATA NCQ Supported: False

我该如何调试这个问题?

编辑:

所有单独的驱动器看起来都很好:

~ # hpacucli controller all show config detail | grep Status
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Cache Status: OK
   Battery/Capacitor Status: OK
      Status: OK
         Status: Ready for Rebuild
         Parity Initialization Status: Initialization Failed
         OS Status: LOCKED
         Status: OK
         Status: OK
         Status: OK
         Status: OK
         Status: OK
         Status: OK

编辑2:

我正在调试 hpaducli 和 grsec(还有 mp-SSH 和 Ubuntu)之间的一些不良交互,但我们确实有 hpacucli 诊断结果,并且隐藏在逻辑驱动器状态标志中Rebuild Aborted From Read Error。让我困惑的是,重建期间的读取错误不会导致将其中一个驱动器标记为预测性故障,或更糟,但会导致重建停止。

答案1

Ready for Rebuild如果您使用的是奇偶校验 RAID 级别(如 5 或 6),则为错误状态。这意味着您可能在阵列中的另一个驱动器上发生了读取错误……例如另一个失败驾驶。

如果系统仍在线,最好的选择是恢复数据或重建。目前没有好的解决办法,而且你也肯定没有多少办法可以调试。

请参阅以下内容:

强制重建 HP 智能阵列中的 LUN

HP Proliant ML350 G5 SAS 硬盘

HP SmartArray P400:如何修复故障的逻辑驱动器?

而且当然:RAID-5:两个磁盘同时发生故障?

答案2

您升级过固件吗?对于 P400i 控制器来说,v1.8 似乎已经过时了。所有驱动器都正常,但奇偶校验失败,这对我来说似乎是一个错误。

我遇到过很多这样的情况:HP 发布了较旧的固件,并通过升级修复了奇偶校验初始化问题(但我需要从头开始重建阵列),并且性能也得到了显著提高(虽然不是完全相同的设备,我使用的是 P440AR)。

相关内容