HP Proliant DL380 G6 - RAID 1 重建期间第 2 个磁盘发生故障后恢复

HP Proliant DL380 G6 - RAID 1 重建期间第 2 个磁盘发生故障后恢复

** 免责声明,我最近才成为该系统的管理员,并意识到备份无法使用。此外,管理软件的状态很糟糕 **

系统 (Ubuntu 14.04) 运行两个 146GB 10k SAS 驱动器,采用 RAID 1(A 和 B)。机箱支持热插拔,因此服务器过去和现在都采用此过程。

  • 故障驱动器 A 被驱动器 C 替换,闪烁的绿色状态确认阵列正在重建
  • 返回 C 时,驱动器状态为常亮绿色(在线),但驱动器 B 状态为常亮琥珀色(离线/严重故障)

  • 但是,文件系统的很大一部分显然没有同步,输入/输出错误表明这一点,并且文件系统恢复为只读

我的目标是确定驱动器 B 故障的根源,如果是不可读块错误之类的小问题,则使用驱动器 B 重新启动系统,或者尽管存在错误,仍强制重建阵列。主要问题是确定如何让阵列控制器报告故障模式,并将故障驱动器视为正常驱动器。

我只是想恢复一些小的配置文件,以便在重新安装时让我的生活更轻松。

服务器目前处于受限状态,但如果重新启动,肯定不会从驱动器 C 启动,因为 /bin/ 的部分已丢失。令人惊讶的是,它仍在发挥作用,因为它仅定期用于 dhcp 和 ssh。

答案1

我最终解决了这个问题,并且实际上设法恢复了大部分配置。

由于 Linux 检测到了故障并试图防止造成进一步的损坏,因此文件系统被安装为只读。

  1. 将系统重新启动到活动 CD,在 raid 提示符下强制系统忽略 [新] 死机的驱动器

  2. 安装 HP 阵列配置实用程序 (HPACUCLI) 来检查 raid 状态、安装驱动器并备份我可以备份的文件(总共约 24 小时)

  3. 移除 Live CD 并重新启动,启动到原始操作系统(确实有效!)

  4. 在原始磁盘上运行fsck(丢失了大量/home/数据,但这不是问题)

  5. 更换新出现故障的驱动器,设置适当的备份策略,以免再次发生这种情况。

相关内容