我的服务器的 Raid 6 阵列中有一块硬盘出现故障。拔出硬盘再放回去,无法启动重建。
将同一个磁盘与备份服务器中的另一个磁盘交换(与第一台服务器相同的配置),然后在备份服务器上开始重建。
从备份服务器中移除的磁盘现已安装在第一台服务器上,并且两台服务器的 Raid 都已成功重建并且可以运行到那时(一个月)。
问题是,为什么以及如何第一个服务器 Raid 的控制器识别出坏磁盘,而备份服务器却毫无问题地接受了它?
有关坏盘的信息是否写在控制器端的某个地方?
故障磁盘真的有缺陷吗?还是某些“软件”错误引发了该错误?
弗雷德
答案1
随着时间的推移,硬盘驱动器磁盘的磁性介质会磨损。这意味着它对磁性变化的响应能力会降低,最终驱动器将无法再使用该介质来存储信息。介质磨损的速度取决于许多因素,由于磁盘的某些区域比其他区域使用得更多,因此并非所有区域的磨损速度都会相同。这意味着最终会有一些“坏扇区”不再有用。通常,在数据无法恢复之前会将其移动到好扇区,并且坏扇区不再使用。
驱动器在其 SMART 日志(具体来说,是增长缺陷列表,又称 GLIST)中维护坏扇区列表,并将这些值报告给 RAID 控制器的固件。控制器固件可能具有驱动器被视为“坏”所需的任意坏扇区阈值。因此,驱动器很可能在一台机器上超过了阈值,但在另一台机器上没有。不幸的是,如果不了解有关控制器的更多信息,我无法提供更具体的反馈。
但是,一旦出现坏扇区,随着介质进一步退化,坏扇区出现的频率会越来越高。因此,建议在看到单个坏扇区出现后立即更换驱动器。
編輯:錯誤