我在 Poweredge R720 上使用硬件 RAID 5 阵列运行 Ubuntu 22.04。
今天早些时候,服务器意外断电,重新启动后,当操作系统开始加载时,我遇到了“无法恢复的介质错误”:
该消息大约每十秒钟就会重新打印一次,最终放弃并将我带入恢复外壳。
在系统设置中,我看到 RAID 运行状况为“最佳”,并且所有物理磁盘均存在且运行正常,没有 SMART 错误。
我不相信这必然会给阵列中的数据带来死刑的唯一原因是,我没有看到通常相关的穿孔条带消息,并且当我多次尝试使用几个不同的 ISO 启动到实时 USB 恢复环境时,我看到了相同的错误,并且无法启动到我迄今为止尝试过的任何操作系统,包括 lubuntu、Ubuntu 服务器和 Alpine。
有人有什么建议吗?我的备份不像我希望的那样新,所以我想在刻录虚拟磁盘并重新开始之前用尽所有可能的选项。
答案1
如倒数第四行所述,您的一个磁盘出现不可恢复的读取错误。这意味着操作系统试图读取一个不可读的扇区(可能在 Current_Pending_Sector SMART 属性中记录)。操作系统无法启动,因为关键文件受到影响。
为了进一步诊断问题,请从活动 USB 启动并通过 打印磁盘 SMART 数据smartctl -a -d megaraid,0 /dev/sda
,将0
(零) 替换为增量磁盘 ID(即:0,1,2,3)
如果存储的数据不重要,可以删除,那么你或许可以挽救硬件(不是通过覆盖每个磁盘来强制磁盘控制器重新映射坏扇区,可以恢复坏扇区(其中包含的数据)。无论如何,我不会在生产设置中使用这种回收的磁盘。