软件 RAID 在几天后将磁盘设置为故障，直到下次重新启动

Question

首先，我们想从系统日志中查看一些信息。当内核从 RAID 阵列中取出磁盘时，将要记录一些信息。在我能找到的最近一次事件中，关键行是

Nov 21 08:45:49 lory kernel: md/raid1:md1: Disk failure on sdb2, disabling device.

很可能会立即记录一些其他信息前这表明存在非常严重的问题；在我的例子中，它们看起来像

Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413335
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 bf 00 00 18 00
Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413311
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 a7 00 00 18 00

因此，如果不是最近两三个 RAID 事件的话，至少从最近的 RAID 事件中查看这些信息会非常有用（请澄清在这些日志之间是否发生过 HDD 更换）。我无法告诉您在 Debian 下会记录在哪里，恐怕您需要知道这一点。

其次，我同意你的观点，你已经更换了两个硬盘。我同意，这意味着两个硬盘都不太可能有问题，尽管我仍然会smartctl -t long /dev/sdX优先对它们运行一次（不是请同时更换两块硬盘！）。不过，这确实让我怀疑电缆的问题。下次发生这种情况时，您可以考虑在关机重启时交换两块硬盘之间的电缆。如果问题互换了，您就有一个非常有力的候选者。或者，如果您负担得起，只需立即更换坏驱动器的电缆，使用已知良好的或全新的替换件即可。

最后顺便提一下，为什么你不镜像交换？如果持久存储镜像但不交换，那么如果驱动器发生故障（并且虚拟机处于负载状态），你很可能会遇到内核崩溃并重新启动，而 RAID 设备故障时间正是你不希望发生无人值守、非计划的重启。

Answer 1

首先，我们想从系统日志中查看一些信息。当内核从 RAID 阵列中取出磁盘时，将要记录一些信息。在我能找到的最近一次事件中，关键行是

Nov 21 08:45:49 lory kernel: md/raid1:md1: Disk failure on sdb2, disabling device.

很可能会立即记录一些其他信息前这表明存在非常严重的问题；在我的例子中，它们看起来像

Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413335
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 bf 00 00 18 00
Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413311
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 a7 00 00 18 00

因此，如果不是最近两三个 RAID 事件的话，至少从最近的 RAID 事件中查看这些信息会非常有用（请澄清在这些日志之间是否发生过 HDD 更换）。我无法告诉您在 Debian 下会记录在哪里，恐怕您需要知道这一点。

其次，我同意你的观点，你已经更换了两个硬盘。我同意，这意味着两个硬盘都不太可能有问题，尽管我仍然会smartctl -t long /dev/sdX优先对它们运行一次（不是请同时更换两块硬盘！）。不过，这确实让我怀疑电缆的问题。下次发生这种情况时，您可以考虑在关机重启时交换两块硬盘之间的电缆。如果问题互换了，您就有一个非常有力的候选者。或者，如果您负担得起，只需立即更换坏驱动器的电缆，使用已知良好的或全新的替换件即可。

最后顺便提一下，为什么你不镜像交换？如果持久存储镜像但不交换，那么如果驱动器发生故障（并且虚拟机处于负载状态），你很可能会遇到内核崩溃并重新启动，而 RAID 设备故障时间正是你不希望发生无人值守、非计划的重启。

软件 RAID 在几天后将磁盘设置为故障，直到下次重新启动

答案1

相关内容