我们有一台旧的 HP DL380G5 服务器,带有 5 个 300GB SCSI 3.5 英寸磁盘,组成一个 RAID5 阵列,位于外部托架中,格式化为带有 ext3 文件系统的逻辑卷,可托管 1.2 TB 的敏感临床患者数据。
hpacucli 中显示两个磁盘预测故障,所以我先更换了其中一个,发现没问题,但我没有看到它还显示“准备重建”。我完全不小心又更换了第二个,现在它显示 RAID 已失败。
我返回了旧磁盘,尝试重新启动服务器,但现在它在启动期间将我置于恢复模式,并说它找不到逻辑卷。
我可以做些什么来尝试恢复它?不幸的是,我们没有备份。任何帮助都将不胜感激!
我正在考虑将两个旧驱动器都恢复,这是否有可能恢复 RAID?
答案1
很抱歉。这是操作员失误。
RAID5 阵列上有两个出现故障的磁盘,并且您移除的磁盘数量超过了阵列所能承受的数量。
在没有任何备份的情况下这样做是更大的错误。
您应该联系数据恢复公司,尝试从损坏的逻辑驱动器中检索数据。
答案2
不要再次打开系统电源。关闭系统,然后致电数据恢复服务。有许多服务允许远程恢复此类故障。此时,您所能做的就是让情况变得更糟。
这通常涉及将所有驱动器直接连接到已知良好的 HBA(而不是 RAID 卡或其他控制器!)并使用远程管理工具启动特定的可下载 Linux 映像。然后,公司远程访问系统、评估磁盘状态并恢复任何剩余的 RAID 元数据。使用专有软件,他们可以重新组装虚拟 RAID 磁盘(技术细节:通常是插入标准 Linux 设备映射器系统的东西)。然后,这会在软件中公开 RAID 只读(没有 RAID SoC 加速器)。接下来的步骤是验证数据是否损坏到无法使用,并将虚拟磁盘克隆到新磁盘以完成数据恢复。之后,您可以担心如何让系统恢复正常运行。
虽然我不会在这里列出任何服务的名称,但大多数服务都很容易找到,而对于那些具有远程服务的服务(可以节省您往返运送 RAID 驱动器 + 恢复驱动器并等待恢复 + 克隆然后他们将其发回的往返时间)您可以获得数据实际上永远不会离开您的设施的好处。
少量的好消息:只要 RAID 控制器(或您)没有向任何磁盘写入任何新数据,并且预故障警告不是故障警告,那么优秀的数据恢复团队几乎有 99.9999% 的机会可以恢复所有数据,而且速度也相当快。
答案3
回复:恢复旧驱动器。
由于您的 RAID 已经完全失效,因此重新安装两个预故障驱动器不会给您带来什么损失。
请将它们安装在原来的托架中。
请记住,它们是预先失败的,而不是直接失败的,因此它们很有可能运行足够长的时间来挽救您的数据。
有这样的机会,即突袭根本就不会启动,也有很小的可能性,即控制器会要求“重置”突袭(选择否/取消),还有极小的可能性,即突袭控制器可能会自动重置突袭,这将抵消数据恢复公司增加的任何价值。
因此,如果 RAID 出现问题,您的首要任务就是删除数据。这意味着至少有 1.2 TB 的可用空间并准备好复制数据,并且准备好运行Linux 环境中的robocopy
或等工具 。如果您的驱动器正在浪费最后几分钟,您就不会想浪费时间阅读手册页并弄清楚语法。xcopy32
rsync
一旦数据安全了,就可以使用新驱动器将 raid 重新创建为 raid6。您将损失 300GB 的容量,但可以承受两个驱动器的容量。或者添加一个额外的驱动器,并考虑使用 6 个驱动器组成 raid10。或者考虑彻底淘汰这台机器;G5 已经使用 10 多年了,确实不再适合重要的生产任务。
并且不要试图启动,但也要设置适当的备份解决方案。下次还会有。