HP Proliant DL380 G6 - RAID 1 重建期间第 2 个磁盘发生故障后恢复

2024-5-31 • tag-icon

ubuntu-14.04 hp-proliant raid1 data-recovery drive-failure

HP Proliant DL380 G6 - RAID 1 重建期间第 2 个磁盘发生故障后恢复

** 免责声明，我最近才成为该系统的管理员，并意识到备份无法使用。此外，管理软件的状态很糟糕 **

系统 (Ubuntu 14.04) 运行两个 146GB 10k SAS 驱动器，采用 RAID 1（A 和 B）。机箱支持热插拔，因此服务器过去和现在都采用此过程。

故障驱动器 A 被驱动器 C 替换，闪烁的绿色状态确认阵列正在重建
返回 C 时，驱动器状态为常亮绿色（在线），但驱动器 B 状态为常亮琥珀色（离线/严重故障）
但是，文件系统的很大一部分显然没有同步，输入/输出错误表明这一点，并且文件系统恢复为只读

我的目标是确定驱动器 B 故障的根源，如果是不可读块错误之类的小问题，则使用驱动器 B 重新启动系统，或者尽管存在错误，仍强制重建阵列。主要问题是确定如何让阵列控制器报告故障模式，并将故障驱动器视为正常驱动器。

我只是想恢复一些小的配置文件，以便在重新安装时让我的生活更轻松。

服务器目前处于受限状态，但如果重新启动，肯定不会从驱动器 C 启动，因为 /bin/ 的部分已丢失。令人惊讶的是，它仍在发挥作用，因为它仅定期用于 dhcp 和 ssh。

答案1

我最终解决了这个问题，并且实际上设法恢复了大部分配置。

由于 Linux 检测到了故障并试图防止造成进一步的损坏，因此文件系统被安装为只读。

将系统重新启动到活动 CD，在 raid 提示符下强制系统忽略 [新] 死机的驱动器
安装 HP 阵列配置实用程序 (HPACUCLI) 来检查 raid 状态、安装驱动器并备份我可以备份的文件（总共约 24 小时）
移除 Live CD 并重新启动，启动到原始操作系统（确实有效！）
在原始磁盘上运行fsck（丢失了大量/home/数据，但这不是问题）
更换新出现故障的驱动器，设置适当的备份策略，以免再次发生这种情况。

相关内容