mdadm 失败是一个明确的状态吗？

Question 1

这还不是最终的；您可以尝试使用恢复设备--re-add。甚至还有一个变体可以自动重新添加所有失败的设备：

mdadm --re-add /dev/md1 faulty

内核日志应该告诉您驱动器被标记为故障的原因。我怀疑在 SMART 状态下存在 UDMA CRC 错误。您还可以使用以下命令查看驱动器上的扩展错误日志

smartctl -x /dev/sde

这些应表明错误的性质；例如

Error 10 [9] occurred at disk power-on lifetime: 31192 hours (1299 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 73 30 a5 58 40 00  Error: UNC at LBA = 0x7330a558 = 1932567896

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 05 00 00 e0 00 00 73 30 a1 00 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 00 08 00 d8 00 00 03 d3 aa c0 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 05 00 00 d0 00 00 73 30 9c 00 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 00 08 00 c8 00 00 03 d3 a9 90 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 05 00 00 c0 00 00 73 30 97 00 40 08 13d+02:07:12.321  READ FPDMA QUEUED

（来自我的一次 SMART 试驾）。

Answer

这还不是最终的；您可以尝试使用恢复设备--re-add。甚至还有一个变体可以自动重新添加所有失败的设备：

mdadm --re-add /dev/md1 faulty

内核日志应该告诉您驱动器被标记为故障的原因。我怀疑在 SMART 状态下存在 UDMA CRC 错误。您还可以使用以下命令查看驱动器上的扩展错误日志

smartctl -x /dev/sde

这些应表明错误的性质；例如

Error 10 [9] occurred at disk power-on lifetime: 31192 hours (1299 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 73 30 a5 58 40 00  Error: UNC at LBA = 0x7330a558 = 1932567896

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 05 00 00 e0 00 00 73 30 a1 00 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 00 08 00 d8 00 00 03 d3 aa c0 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 05 00 00 d0 00 00 73 30 9c 00 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 00 08 00 c8 00 00 03 d3 a9 90 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 05 00 00 c0 00 00 73 30 97 00 40 08 13d+02:07:12.321  READ FPDMA QUEUED

（来自我的一次 SMART 试驾）。

Question 2

fail由于不可纠正的读取错误 (UCE)，该驱动器可能已被mdadm 编辑。您可以在内核日志中搜索相关信息（尝试 grep about sde）。

也就是说，这不是一个确定的状态：该错误可能是由许多瞬态因素引起的，包括高速写入或损坏的电缆。

最好的选择是使用硬盘制造商的工具来分析和修复它；但是，对于最近的 HDD，您可以尝试这些步骤，我在过去几年中成功使用过这些步骤，并且已经恢复了一些仍在生产中超过 50k 小时的驱动器：

免责声明：如果使用这些命令，您将丢失 /dev/sde 驱动器上的所有数据！

启动 SMART 长时间测试：smartctl -t long /dev/sde
用零清除所有驱动器：（dd if=/dev/zero of=/dev/sde这是许多 HDD 制造商工具在恢复例程中实际执行的操作）
重新分区您的驱动器
将驱动器重新添加到阵列中

理想情况下，[1] 点应该在某个扇区出现故障，而 [2] 点应该帮助 HDD 逻辑 (1) 将“损坏的”扇区标记为明确损坏，并找到替代扇区，或者 (2) 完全损坏恢复该扇区。

Answer