有多少 SMART 部门重新分配表明存在问题?

有多少 SMART 部门重新分配表明存在问题?

我有一台刚使用一个多月的 NAS 设备。它配置为通过电子邮件向我发送硬盘 SMART 数据生成的警报。一天后,其中一个硬盘报告一个扇区已损坏并被重新分配。在第一周,该硬盘的扇区总数攀升至 6 个。一个月后,扇区总数为 9 个。速度似乎肯定在减慢。

NAS 配置了 6 个 1.5 TB 的硬盘,采用 RAID-5 配置。对于如此大容量的硬盘,我预计偶尔会出现扇区故障,因此当前几个扇区被重新定位时,我并不担心。但令我烦恼的是,其他磁盘均未报告任何问题。

当重新定位率或重新定位总数达到多少时,我应该开始担心驱动器的健康状况?这可能会因驱动器的容量而异吗?

答案1

驱动器与大多数组件一样,具有浴缸曲线故障率。驱动器在开始时故障率很高,在中间阶段故障率相对较低,然后在使用寿命结束时故障率很高。

正如整个驱动器遵循此曲线一样,磁盘的特定区域也将遵循此曲线。在开始使用驱动器时,您会看到很多扇区重新分配,但这种情况应该会逐渐减少。当驱动器在使用寿命结束时开始出现故障时,它将开始丢失越来越多的扇区。

您无需担心 6(取决于驱动器 - 请咨询制造商),但您需要观察并了解每次重新分配的频率。如果恶化加速或保持不变,则需要担心。否则,在最初的磨合期后应该没问题。

-亚当

答案2

重读谷歌关于这个主题的论文,“大量磁盘驱动器的故障趋势“,我想我可以肯定地说,亚当的答案是错误的。在他们对大量驱动器的分析中,大约 9% 的驱动器具有非零重新分配计数。有说服力的引述如下:

在第一次重新分配之后,驱动器在 60 天内发生故障的可能性比没有重新分配计数的驱动器高出 14 倍以上,这使得该参数的临界阈值也达到 1。

在处理“离线重新分配”时,情况就更加有趣了,这些重新分配是在驱动器的后台清理过程中发现的,而不是在实际请求的 IO 操作期间发现的。他们的结论是:

在第一次离线重新分配之后,驱动器在 60 天内发生故障的概率比没有进行离线重新分配的驱动器高 21 倍以上;这种影响再次比完全重新分配更为严重。

从现在开始,我的政策是安排更换重新分配计数非零的驱动器。

答案3

不同的驱动器可能有不同的参数。我上次检查的驱动器是来自某家供应商的 1TB 企业系列磁盘,其中有 2048 个保留扇区用于重新分配。

您可以在 SMART 报告中估算重新分配扇区数量不为零的驱动器的保留扇区数量。请考虑下面有关故障驱动器的报告。

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

这里已使用了 95% 的保留容量,即 1955 个扇区。因此初始容量约为 2057。实际上应该是 2048,差异是由于舍入误差造成的。

当重新分配的扇区数量达到某个阈值时,SMART 会将驱动器转为故障状态。对于有问题的驱动器,此阈值设置为预留容量的 64%。这大约是 1310 个重新映射的扇区。

但是保留扇区并不连续。相反,它们被分成几组,每组用于从磁盘的特定部分重新映射扇区。这样做是为了将数据保留在磁盘上的某个区域。

局部性的缺点是磁盘可能有许多保留扇区。但一个区域可能已经用完了保留容量。在这种情况下,行为取决于固件。在一个驱动器上,我们观察到当不再受保护的部分发生错误时,它会进入故障状态并阻塞。

答案4

当这种新型驱动器出现这种情况时,它根本就不值得信任!

尽快将其寄回并获取替换驱动器。

相关内容