MegaRAID 存储管理器更新,现在出现大量媒体错误

MegaRAID 存储管理器更新,现在出现大量媒体错误

我刚刚查看了一台使用了 5 年的服务器,发现 MegaRAID 存储管理器 (14.08.01) 似乎没有响应。该服务器已经运行了大约 400 天而没有重新启动。

我不想重新启动它,所以我安装了新版本 (17.05.00),一切似乎都顺利。启动 MSM 后,它立即开始在磁盘 0 上发现“意外的未恢复读取错误”。

我从 WD 订购了一块 Express RMA 硬盘,然后启动了一致性检查。现在我在另一个硬盘上也看到了同样的错误(但频率要低得多)。我有四个 RAID 10 硬盘和一个热备用硬盘。其中一个硬盘有 156 个介质错误,另一个有 10 个。我是不是搞砸了?

我是否应该使具有最多介质错误的驱动器失效并尝试重建?

答案1

修复阵列后检查文件系统,以防出现静默数据损坏。

在四驱动器 RAID 10 中,您可能会丢失两个完整的驱动器。根据哪个驱动器发生故障,您可能不会受到丝毫影响。确保这两个驱动器都是相反的 RAID 1 阵列的成员。如果是,您几乎肯定没问题。您还有一个热备用驱动器,它应该可以充当大多数控制器的“溢出”空间 - 虽然我不确定您的控制器是否会这样做,因为我不知道它是什么。

即使您的控制器不使用热备用作为暂存空间或紧急空间,它仍应该定期进行巡检读取,这可能已经检测到这些问题并重新定位了数据区域。您的控制器日志是查看至少在最近几次巡检读取期间是否发生这种情况的好地方。不过,我不知道这些媒体错误有多久了。

关于您的适配器,如果您的控制器中没有运行制造商“认证”的驱动器,则控制器在成员开始出现故障时不一定能够如此智能地弹出成员 - 通常只有在成员退出或报告严重的 SMART 故障时才能弹出它们。但是,驱动器在触发其整体 SMART 健康报告之前可能已经出现故障很长一段时间了。

即使情况不妙,也要进行重建并进行一致性检查 + 文件系统检查。如果您确实遇到了文件系统级损坏,您还会在 dmesg 中看到文件系统 I/O 错误。最坏的情况是,您需要从备份中恢复一些文件或整个阵列。一次重建一个磁盘,而不是两个磁盘。从更换最破旧的磁盘开始。

相关内容