通过声音识别硬盘故障 + 在已安装的 RAID1 上运行 smartctl 是否安全？

Question 1

我不能确定你的第一个问题，我以前从未听过硬盘发出这种声音。当我听到这种声音时，它肯定是转速低于磁盘驱动器的声音，通常是风扇发出的声音，通常是轴承故障。如果驱动器支架仍然牢固，并且没有任何东西接触驱动器本身（大多数 RAID 盒都使用橡胶支架将驱动器隔离一点），那么我能想到的唯一原因就是驱动器电机的轴承故障。我假设它在访问驱动器时不会发生变化。

我希望您将其设置为镜像设置 (RAID1)，而不是简单的条带集。如果是这样，您可以丢失驱动器而不会影响您的数据。我相信 WD10EFRX 是一个 1TB 磁盘，不是吗？它们很便宜，如果您确定是磁盘问题，那么可能需要使用 MDADM 使其“故障”，物理替换它，然后将新磁盘添加到阵列。重新同步大约需要一个小时，根据我的经验，为了安心，这样做是值得的。然后，您可以取出故障驱动器并在单独的硬件上进行测试，以确保您的数据不会受到测试过程的损害。是的，我知道这也不能回答您的第二个问题，但这是一种避免短期或长期 SMART 测试中断的可能性的方法。

Answer

我不能确定你的第一个问题，我以前从未听过硬盘发出这种声音。当我听到这种声音时，它肯定是转速低于磁盘驱动器的声音，通常是风扇发出的声音，通常是轴承故障。如果驱动器支架仍然牢固，并且没有任何东西接触驱动器本身（大多数 RAID 盒都使用橡胶支架将驱动器隔离一点），那么我能想到的唯一原因就是驱动器电机的轴承故障。我假设它在访问驱动器时不会发生变化。

我希望您将其设置为镜像设置 (RAID1)，而不是简单的条带集。如果是这样，您可以丢失驱动器而不会影响您的数据。我相信 WD10EFRX 是一个 1TB 磁盘，不是吗？它们很便宜，如果您确定是磁盘问题，那么可能需要使用 MDADM 使其“故障”，物理替换它，然后将新磁盘添加到阵列。重新同步大约需要一个小时，根据我的经验，为了安心，这样做是值得的。然后，您可以取出故障驱动器并在单独的硬件上进行测试，以确保您的数据不会受到测试过程的损害。是的，我知道这也不能回答您的第二个问题，但这是一种避免短期或长期 SMART 测试中断的可能性的方法。

Question 2

拥有 RAID 的意义在于您不必过于担心硬盘故障。

不过，您确实需要定期检查，每周或每两周一次就好，这些检查将读取所有磁盘的所有数据，比较它们是否一致，并重写任何无法读取的扇区（以便磁盘可以重新分配它们）。

SMART 属性看起来绝对没问题，只有两个属性通过运行“离线”测试进行更新，其余的都是对正常运行的运行评论。您可以（并且应该）在几乎没有发生任何情况时定期运行长时间的离线测试，因为驱动器活动会中断测试并使其返回到最后一个检查点（否则可以随时运行测试）。

所以如果该磁盘发生故障，它会突然发生故障，而不是逐渐发生故障。

您现在可以做的是添加第三个磁盘，将镜像数增加到三个，并让旧磁盘继续运行。这样您将获得更好的性能，并且如果一个磁盘发生故障，设置仍将是冗余的。

由于这是软件 RAID，您还需要调查您的引导加载程序是否在所有地方都正确安装。

Answer