HP DL370 G5 hpacucli 显示 2 个驱动器出现预测故障 - 可以安全地尝试 1 个逐个重建吗?

HP DL370 G5 hpacucli 显示 2 个驱动器出现预测故障 - 可以安全地尝试 1 个逐个重建吗?

我有:

Openfiler SAN ML370 G5 智能阵列 6400 插槽 1 阵列 B 逻辑驱动器 2 是 6 x 148GB 10k 热插拔驱动器的 RAID5 阵列,因此 680GB 没有备用空间

上周五,停电了,这台机器刚插上电源,就严重故障了。当它恢复供电时,0-5 驱动器中的 1 号驱动器和 4 号驱动器变为红色闪烁的故障灯。阵列指南中的图表显示“已收到此驱动器的预测故障,请尽快更换”。命令行 hpacucli 实用程序报告相同的消息;预测故障。活动灯正常闪烁。故障图表显示,直到故障 LED 常亮,驱动器才“发生故障”。

在这整个过程中以及一周后,系统一直保持运行,到目前为止没有用户报告任何问题 - 所有 ESX 主机/VM 都在使用此 SAN 并且仍然运行良好,我手动备份了阵列上的所有内容,今天出现了新的驱动器。因此,我可以毫不费力地尝试一些事情,但如果我小心谨慎的话,我肯定会更换驱动器并进行重建工作。

通常情况下,我会假设,只要出现预测性故障,我就可以一次替换一个,让它们一次重建一个,这样就没问题了,但是当我运行 hpacucli 时,我在 LD 上得到了以下输出

阵列:B 接口类型:并行 SCSI 未使用空间:0 MB 状态:正常

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

因此,状态正常,但奇偶校验初始化让我感到害怕。任何有关成功重建过程的指导都值得赞赏 - 或者类似“现在所有数据都是可疑的,只需更换坏驱动器,用它创建一个新阵列并恢复,因为您有备份”的建议也可以。我知道无论如何这都是一个风险。在我尝试更换任何东西之前,我应该重新启动吗?

底部有完整的 hpacucli 输出。

似乎如果预测失败只是 SMART 错误的积累,它仍然会有奇偶校验并重建,只是可能很慢?

非常感谢您的指导,Peace!

---完整 hpacucli---

阵列:B 接口类型:并行 SCSI 未使用空间:0 MB 状态:正常

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

  physicaldrive 1:0
     SCSI Bus: 1
     SCSI ID: 0
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY83F3Y00007442557Q
     Model: COMPAQ  BD14685A26
  physicaldrive 1:1
     SCSI Bus: 1
     SCSI ID: 1
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY8393700007345XU2M
     Model: COMPAQ  BD14685A26
  physicaldrive 1:2
     SCSI Bus: 1
     SCSI ID: 2
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NWGY00007524BFV1
     Model: COMPAQ  BD14685A26
  physicaldrive 1:3
     SCSI Bus: 1
     SCSI ID: 3
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9PA1N00007523W3DP
     Model: COMPAQ  BD14685A26
  physicaldrive 1:4
     SCSI Bus: 1
     SCSI ID: 4
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY72WR9000075216UNS
     Model: COMPAQ  BD14685A26
  physicaldrive 1:5
     SCSI Bus: 1
     SCSI ID: 5
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NT3F000075231R9V
     Model: COMPAQ  BD14685A26

答案1

100% 安全?不。任何涉及阵列重建的操作都不是完全安全的,尤其是 RAID 5。这会起作用吗?可能吧。

您的问题是,重建期间的一次读取失败将导致整个卷失败。而且您将执行两次,其中一次是针对已经出现问题的驱动器。

理想情况下,在这种情况下,您应该停止生产系统,进行完整备份,删除 RAID 卷,更改磁盘,重新创建阵列并恢复备份。

如果您真的无法承受该阵列那么长时间的停机,那么您应该尝试单独更改每个磁盘并等待每次重建完成,但不要在未先进行完整备份的情况下执行此操作,并且如果您打算在重建期间保持该系统处于活动状态,请确保首先警告用户,他们可能会在最后一次备份日期之后丢失所有数据,并且您已获得他们的批准(毕竟,这是他们的数据,他们应该决定他们宁愿承担什么风险:安全但显示停机或不安全但可能不间断服务)。

答案2

尽可能从阵列中复制数据,或者尝试备份相关数据。您可以关闭电源(降低驱动器转速)然后再打开电源,看看是否可以加快重建过程。一次更换一个磁盘。注意“等待重建”状态。如果看到该状态,则意味着 RAID 5 重建将无法继续(通常是阵列中另一个驱动器的读取错误)。

Parity初始化详解这里这里

Background RAID creation 
When you create a RAID 1, RAID 5, or RAID 6 logical drive, the Smart Array controller must build the 
logical drive within the array and initialize the parity before enabling certain advanced performance 
techniques. Parity initialization takes several hours to complete. The time it takes depends on the size of the 
logical drive and the load on the controller. The Smart Array controller creates the logical drive, initializing 
the parity whenever the controller is not busy. While the controller creates the logical drive, you can access 
the storage volume which has full fault tolerance. 

您使用什么外壳来存放这些磁盘?MSA30?

答案3

我在 DL380 G7 P410i RAID5 上遇到了完全相同的问题,刚刚与 HP 支持部门经历了一次非常不愉快的经历,我完全没有得到任何帮助,与几个人(来自印度)打交道,他们不知道发生了什么,也不愿意升级问题。参考资料在解释这种错误情况方面同样很差。

无论如何,我已经解决了这个问题。据我所知,“重建”操作不一定与“奇偶校验初始化”相同。就我而言,我有一个有缺陷的 HDD,它有很多已恢复的读取错误,但实际上并未被阵列标记为失败。问题当然是“如果我更换此磁盘,逻辑驱动器是否会因为奇偶校验可能未正确写入而失败?”以及“为什么 HP 管理代理没有报告任何错误?”。在备份所有内容并拔出有缺陷的磁盘后,逻辑驱动器继续运行。我放入替换磁盘,逻辑驱动器状态更改为“恢复”。恢复完成后,逻辑驱动器状态变回“正常”,但奇偶校验初始化仍然失败。我不确定它一开始是怎么发生的,但可能是由于我的有缺陷的磁盘上的错误,如上所述。

所以最后,我从 ACU cli 执行了“ctrl slot=0 logicaldrive 1 modified raid=5”,这重新启动了奇偶校验初始化,最终成功完成。

相关内容