Linux mdraid RAID 6，磁盘每隔几天就会随机掉线

Question 1

这是一个相当大的条带，8-2=6 * 512K = 3MiB；也不是一个偶数。将阵列增加到 10 个磁盘（8 个数据 + 2 个奇偶校验）或减少到 4 个 + 2 个奇偶校验，每个驱动器的总条带大小为 256K 或 64K。可能是缓存因未对齐的写入而对您不满意。您可以尝试将所有驱动器置于写通模式，然后再尝试重新配置阵列。

2016 年 7 月 20 日更新。

此时，我确信您的 RAID 配置存在问题。3MiB 条带很奇怪，即使它是分区偏移量 [1] (1MiB) 的倍数，对于任何 RAID、SSD 或其他设备来说，它都只是次优的条带大小。它可能会产生大量未对齐的写入，从而迫使您的 SSD 释放比现有页面更多的页面，这会不断将其推入垃圾收集器，并缩短其使用寿命。驱动器无法足够快地获得可用于写入的可用页面，因此当您最终将缓存刷新到磁盘（同步写入）时，它实际上会失败。您没有崩溃一致的阵列，例如您的数据不安全。

这是我根据现有信息和投入时间得出的理论。现在，您面前有一个成为存储专家的“成长机会” ;)

重新开始。不要使用分区。将系统放在一边，并构建一个总条带大小为 128K 的阵列（开始时稍微保守一点）。在总共 N 个驱动器的 RAID 6 配置中，只有 N-2 个驱动器一次获取数据，其余两个驱动器存储奇偶校验信息。因此，如果 N=6，则 128K 条带将需要 32K 块。现在您应该能够明白为什么 8 对于运行 RAID 6 来说是一个奇数。

然后以直接模式对“原始磁盘”运行 fio [2] 并对其进行敲击，直到您确信它稳定为止。接下来添加文件系统并告知其底层条带大小（man mkfs.???）。再次运行 fio，但这次使用文件（否则您将破坏文件系统）并确认阵列保持正常运行。

我知道这有很多“东西”，只需从小事做起，尝试了解它在做什么，然后坚持下去。blktrace 和 iostat 等工具可以帮助您了解应用程序的编写方式，从而告知您使用的最佳条带/块大小。

https://www.percona.com/blog/2011/06/09/aligning-io-on-a-hard-disk-raid-the-theory/

（我的 fio 备忘单）2.https://wiki.mikejung.biz/Benchmarking#Fio_Random_Write_and_Random_Read_Command_Line_Examples

Answer

这是一个相当大的条带，8-2=6 * 512K = 3MiB；也不是一个偶数。将阵列增加到 10 个磁盘（8 个数据 + 2 个奇偶校验）或减少到 4 个 + 2 个奇偶校验，每个驱动器的总条带大小为 256K 或 64K。可能是缓存因未对齐的写入而对您不满意。您可以尝试将所有驱动器置于写通模式，然后再尝试重新配置阵列。

2016 年 7 月 20 日更新。

此时，我确信您的 RAID 配置存在问题。3MiB 条带很奇怪，即使它是分区偏移量 [1] (1MiB) 的倍数，对于任何 RAID、SSD 或其他设备来说，它都只是次优的条带大小。它可能会产生大量未对齐的写入，从而迫使您的 SSD 释放比现有页面更多的页面，这会不断将其推入垃圾收集器，并缩短其使用寿命。驱动器无法足够快地获得可用于写入的可用页面，因此当您最终将缓存刷新到磁盘（同步写入）时，它实际上会失败。您没有崩溃一致的阵列，例如您的数据不安全。

这是我根据现有信息和投入时间得出的理论。现在，您面前有一个成为存储专家的“成长机会” ;)

重新开始。不要使用分区。将系统放在一边，并构建一个总条带大小为 128K 的阵列（开始时稍微保守一点）。在总共 N 个驱动器的 RAID 6 配置中，只有 N-2 个驱动器一次获取数据，其余两个驱动器存储奇偶校验信息。因此，如果 N=6，则 128K 条带将需要 32K 块。现在您应该能够明白为什么 8 对于运行 RAID 6 来说是一个奇数。

然后以直接模式对“原始磁盘”运行 fio [2] 并对其进行敲击，直到您确信它稳定为止。接下来添加文件系统并告知其底层条带大小（man mkfs.???）。再次运行 fio，但这次使用文件（否则您将破坏文件系统）并确认阵列保持正常运行。

我知道这有很多“东西”，只需从小事做起，尝试了解它在做什么，然后坚持下去。blktrace 和 iostat 等工具可以帮助您了解应用程序的编写方式，从而告知您使用的最佳条带/块大小。

https://www.percona.com/blog/2011/06/09/aligning-io-on-a-hard-disk-raid-the-theory/

（我的 fio 备忘单）2.https://wiki.mikejung.biz/Benchmarking#Fio_Random_Write_and_Random_Read_Command_Line_Examples

Question 2

启动时检查并显示 SMART 读数。我怀疑你的磁盘有故障。尝试读取/写入故障扇区后，似乎超时了。也可能是电缆问题（接触不良、电缆断裂等）。我还看到磁盘有类似的固件问题。SMART 之后我应该会得到更多建议。

Answer

启动时检查并显示 SMART 读数。我怀疑你的磁盘有故障。尝试读取/写入故障扇区后，似乎超时了。也可能是电缆问题（接触不良、电缆断裂等）。我还看到磁盘有类似的固件问题。SMART 之后我应该会得到更多建议。

Linux mdraid RAID 6，磁盘每隔几天就会随机掉线

当前状态

问题

已经尝试过

需要你的帮助

更新 20160802

更新 20160806

更新 20160930

结论

答案1

答案2

相关内容