有多少 SMART 部门重新分配表明存在问题？

Question 1

驱动器与大多数组件一样，具有浴缸曲线故障率。驱动器在开始时故障率很高，在中间阶段故障率相对较低，然后在使用寿命结束时故障率很高。

正如整个驱动器遵循此曲线一样，磁盘的特定区域也将遵循此曲线。在开始使用驱动器时，您会看到很多扇区重新分配，但这种情况应该会逐渐减少。当驱动器在使用寿命结束时开始出现故障时，它将开始丢失越来越多的扇区。

您无需担心 6（取决于驱动器 - 请咨询制造商），但您需要观察并了解每次重新分配的频率。如果恶化加速或保持不变，则需要担心。否则，在最初的磨合期后应该没问题。

-亚当

Answer

驱动器与大多数组件一样，具有浴缸曲线故障率。驱动器在开始时故障率很高，在中间阶段故障率相对较低，然后在使用寿命结束时故障率很高。

正如整个驱动器遵循此曲线一样，磁盘的特定区域也将遵循此曲线。在开始使用驱动器时，您会看到很多扇区重新分配，但这种情况应该会逐渐减少。当驱动器在使用寿命结束时开始出现故障时，它将开始丢失越来越多的扇区。

您无需担心 6（取决于驱动器 - 请咨询制造商），但您需要观察并了解每次重新分配的频率。如果恶化加速或保持不变，则需要担心。否则，在最初的磨合期后应该没问题。

-亚当

Question 2

重读谷歌关于这个主题的论文，“大量磁盘驱动器的故障趋势“，我想我可以肯定地说，亚当的答案是错误的。在他们对大量驱动器的分析中，大约 9% 的驱动器具有非零重新分配计数。有说服力的引述如下：

在第一次重新分配之后，驱动器在 60 天内发生故障的可能性比没有重新分配计数的驱动器高出 14 倍以上，这使得该参数的临界阈值也达到 1。

在处理“离线重新分配”时，情况就更加有趣了，这些重新分配是在驱动器的后台清理过程中发现的，而不是在实际请求的 IO 操作期间发现的。他们的结论是：

在第一次离线重新分配之后，驱动器在 60 天内发生故障的概率比没有进行离线重新分配的驱动器高 21 倍以上；这种影响再次比完全重新分配更为严重。

从现在开始，我的政策是安排更换重新分配计数非零的驱动器。

Answer

重读谷歌关于这个主题的论文，“大量磁盘驱动器的故障趋势“，我想我可以肯定地说，亚当的答案是错误的。在他们对大量驱动器的分析中，大约 9% 的驱动器具有非零重新分配计数。有说服力的引述如下：

在第一次重新分配之后，驱动器在 60 天内发生故障的可能性比没有重新分配计数的驱动器高出 14 倍以上，这使得该参数的临界阈值也达到 1。

在处理“离线重新分配”时，情况就更加有趣了，这些重新分配是在驱动器的后台清理过程中发现的，而不是在实际请求的 IO 操作期间发现的。他们的结论是：

在第一次离线重新分配之后，驱动器在 60 天内发生故障的概率比没有进行离线重新分配的驱动器高 21 倍以上；这种影响再次比完全重新分配更为严重。

从现在开始，我的政策是安排更换重新分配计数非零的驱动器。

Question 3

不同的驱动器可能有不同的参数。我上次检查的驱动器是来自某家供应商的 1TB 企业系列磁盘，其中有 2048 个保留扇区用于重新分配。

您可以在 SMART 报告中估算重新分配扇区数量不为零的驱动器的保留扇区数量。请考虑下面有关故障驱动器的报告。

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

这里已使用了 95% 的保留容量，即 1955 个扇区。因此初始容量约为 2057。实际上应该是 2048，差异是由于舍入误差造成的。

当重新分配的扇区数量达到某个阈值时，SMART 会将驱动器转为故障状态。对于有问题的驱动器，此阈值设置为预留容量的 64%。这大约是 1310 个重新映射的扇区。

但是保留扇区并不连续。相反，它们被分成几组，每组用于从磁盘的特定部分重新映射扇区。这样做是为了将数据保留在磁盘上的某个区域。

局部性的缺点是磁盘可能有许多保留扇区。但一个区域可能已经用完了保留容量。在这种情况下，行为取决于固件。在一个驱动器上，我们观察到当不再受保护的部分发生错误时，它会进入故障状态并阻塞。

Answer