由于单个驱动器读取错误导致软件 RAID-1 内核故障

Question

1) 为什么所有重新安排的扇区恰好相距 8 个？

扇区数量存在这样的差距是可以预料的，问题是这些差距有多大（4k 或更大）。 8x 512 字节是 4k，这是大多数文件系统使用的扇区大小。因此文件系统可能请求从 RAID 读取 4k，RAID 会请求/dev/sdb该数据。该读取的第一个扇区失败（这是您在日志中看到的扇区号），RAID 切换到/dev/sda并从那里提供 4k 服务。然后文件系统请求读取下一个 4k，回到/dev/sdb扇区号 +8，再次失败，这又是您在日志中看到的内容...

2) 为什么内核会变得无响应并需要重新启动？

正常情况下不应该发生。问题是重新分配的情况是你能得到的最昂贵的。每次失败的读取都必须重定向到另一个磁盘，必须在原始磁盘上重写，等等。如果它同时填满您的日志文件，则会导致新的写入请求，而这些请求又必须重新分配在这种情况下，将磁盘完全踢出会更便宜。

这也是一个关于其余硬件（例如 SATA 控制器）如何处理故障驱动器的问题。如果控制器本身出现问题，则会进一步损害性能。

如果没有日志条目，很难准确判断发生了什么；这是 Linux 内核的一个弱点，当情况真正恶化时，没有简单的解决方案来保留最后的消息。

3) 为什么在 raid 重新同步完成后仅 23 小时，不可读和离线不可纠正计数就会重置？

有些值仅在您进行离线数据收集（UPDATED Offline 列）时才会更新，这可能需要一些时间。如果磁盘设置为自动执行此操作，则取决于磁盘，例如每四个小时一次。如果您不想依赖磁盘，则应使用 smartmontools 进行设置。

Answer 1