如何检测硬盘故障

Question 1

如果你很幸运（并且启用了守护进程），你将获得聪明的在磁盘发生故障之前，日志中会显示警告。但是，这并不能保证。根据我的经验，在不到 50% 的情况下，磁盘发生故障之前会出现 SMART 错误。请确保有某种东西在监控日志。
磁盘故障后，您更换磁盘并重建。 RAID 系统应该会从中恢复。只是希望重建时不会再出现磁盘错误...

我强烈建议制定良好的备份策略，而不是计划数据恢复。Raid 非常适合提高服务器的正常运行时间，但只要有一个小小的软件错误，您的所有数据就会消失。

Answer

如果你很幸运（并且启用了守护进程），你将获得聪明的在磁盘发生故障之前，日志中会显示警告。但是，这并不能保证。根据我的经验，在不到 50% 的情况下，磁盘发生故障之前会出现 SMART 错误。请确保有某种东西在监控日志。
磁盘故障后，您更换磁盘并重建。 RAID 系统应该会从中恢复。只是希望重建时不会再出现磁盘错误...

我强烈建议制定良好的备份策略，而不是计划数据恢复。Raid 非常适合提高服务器的正常运行时间，但只要有一个小小的软件错误，您的所有数据就会消失。

Question 2

1 Centos 中的软件 raid？所以，这一定是 mdraid。您可以像这样查看 raid 状态：cat /proc/mdstat 或：mdadm --detail /dev/md[0-9]，您可以通过 fstab、mount、pvs 或其他地方找到正在使用的 md。如果发生某些事件，toy 还可以在 /etc/mdadm.conf 中设置 MAILADDR 以通过电子邮件通知。

2 只需通过 mdadm --manage /dev/md[0-9] --remove /dev/sd[az] 删除故障磁盘，替换它并将新磁盘添加到 raid 阵列（mdadm --re-add, add）

此外，您可能还需要恢复故障磁盘的 mbr 以使其也可以启动。

Answer

1 Centos 中的软件 raid？所以，这一定是 mdraid。您可以像这样查看 raid 状态：cat /proc/mdstat 或：mdadm --detail /dev/md[0-9]，您可以通过 fstab、mount、pvs 或其他地方找到正在使用的 md。如果发生某些事件，toy 还可以在 /etc/mdadm.conf 中设置 MAILADDR 以通过电子邮件通知。

2 只需通过 mdadm --manage /dev/md[0-9] --remove /dev/sd[az] 删除故障磁盘，替换它并将新磁盘添加到 raid 阵列（mdadm --re-add, add）

此外，您可能还需要恢复故障磁盘的 mbr 以使其也可以启动。

如何检测硬盘故障

答案1

答案2

相关内容