Linux - 使用 GPT 修复 RAID1 阵列上的坏块

Question 1

坦率地说，所有这些“刺激行业”的答案都是疯狂的。他们面临（可能是隐藏的）文件系统损坏的风险。如果数据已经消失了，因为该磁盘存储了唯一的副本，这是合理的。但镜子上有一个完美的副本。

您只需要让 mdraid 擦洗镜子即可。它会注意到坏扇区，并自动重写它。

# echo 'check' > /sys/block/mdX/md/sync_action    # use 'repair' instead for older kernels

您需要在其中放置正确的设备（例如，md0 而不是 mdX）。这将需要一段时间，因为默认情况下它会处理整个数组。在足够新的内核上，您可以首先将扇区号写入sync_min/sync_max，以将其限制为仅数组的一部分。

这是一个安全的操作。您可以在所有 mdraid 设备上执行此操作。事实上，你应该定期在所有 mdraid 设备上执行此操作。您的发行版可能附带一个 cronjob 来处理这个问题，也许您需要做一些事情来启用它？

适用于系统上所有 RAID 设备的脚本

不久前，我编写了这个脚本来“修复”系统上的所有 RAID 设备。这是为较旧的内核版本编写的，其中只有“修复”才能修复坏扇区；现在只需进行检查就足够了（修复在较新的内核上仍然可以正常工作，但它也会重新复制/重建奇偶校验，这并不总是您想要的，尤其是在闪存驱动器上）

#!/bin/bash

save="$(tput sc)";
clear="$(tput rc)$(tput el)";
for sync in /sys/block/md*/md/sync_action; do
    md="$(echo "$sync" | cut -d/ -f4)"
    cmpl="/sys/block/$md/md/sync_completed"

    # check current state and get it repairing.
    read current < "$sync"
    case "$current" in
        idle)
            echo 'repair' > "$sync"
            true
            ;;
        repair)
            echo "WARNING: $md already repairing"
            ;;
        check)
            echo "WARNING: $md checking, aborting check and starting repair"
            echo 'idle' > "$sync"
            echo 'repair' > "$sync"
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

    echo -n "Repair $md...$save" >&2
    read current < "$sync"
    while [ "$current" != "idle" ]; do
        read stat < "$cmpl"
        echo -n "$clear $stat" >&2
        sleep 1
        read current < "$sync"
    done
    echo "$clear done." >&2;
done

for dev in /dev/sd?; do
    echo "Starting offline data collection for $dev."
    smartctl -t offline "$dev"
done

如果你想代替check，repair那么这个（未经测试的）第一个块应该可以工作：

    case "$current" in
        idle)
            echo 'check' > "$sync"
            true
            ;;
        repair|check)
            echo "NOTE: $md $current already in progress."
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

Answer

坦率地说，所有这些“刺激行业”的答案都是疯狂的。他们面临（可能是隐藏的）文件系统损坏的风险。如果数据已经消失了，因为该磁盘存储了唯一的副本，这是合理的。但镜子上有一个完美的副本。

您只需要让 mdraid 擦洗镜子即可。它会注意到坏扇区，并自动重写它。

# echo 'check' > /sys/block/mdX/md/sync_action    # use 'repair' instead for older kernels

您需要在其中放置正确的设备（例如，md0 而不是 mdX）。这将需要一段时间，因为默认情况下它会处理整个数组。在足够新的内核上，您可以首先将扇区号写入sync_min/sync_max，以将其限制为仅数组的一部分。

这是一个安全的操作。您可以在所有 mdraid 设备上执行此操作。事实上，你应该定期在所有 mdraid 设备上执行此操作。您的发行版可能附带一个 cronjob 来处理这个问题，也许您需要做一些事情来启用它？

适用于系统上所有 RAID 设备的脚本

不久前，我编写了这个脚本来“修复”系统上的所有 RAID 设备。这是为较旧的内核版本编写的，其中只有“修复”才能修复坏扇区；现在只需进行检查就足够了（修复在较新的内核上仍然可以正常工作，但它也会重新复制/重建奇偶校验，这并不总是您想要的，尤其是在闪存驱动器上）

#!/bin/bash

save="$(tput sc)";
clear="$(tput rc)$(tput el)";
for sync in /sys/block/md*/md/sync_action; do
    md="$(echo "$sync" | cut -d/ -f4)"
    cmpl="/sys/block/$md/md/sync_completed"

    # check current state and get it repairing.
    read current < "$sync"
    case "$current" in
        idle)
            echo 'repair' > "$sync"
            true
            ;;
        repair)
            echo "WARNING: $md already repairing"
            ;;
        check)
            echo "WARNING: $md checking, aborting check and starting repair"
            echo 'idle' > "$sync"
            echo 'repair' > "$sync"
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

    echo -n "Repair $md...$save" >&2
    read current < "$sync"
    while [ "$current" != "idle" ]; do
        read stat < "$cmpl"
        echo -n "$clear $stat" >&2
        sleep 1
        read current < "$sync"
    done
    echo "$clear done." >&2;
done

for dev in /dev/sd?; do
    echo "Starting offline data collection for $dev."
    smartctl -t offline "$dev"
done

如果你想代替check，repair那么这个（未经测试的）第一个块应该可以工作：

    case "$current" in
        idle)
            echo 'check' > "$sync"
            true
            ;;
        repair|check)
            echo "NOTE: $md $current already in progress."
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

Question 2

我刚刚在 RAID1 阵列上遇到了几乎相同的问题。坏扇区位于其中一个分区的开头 - /dev/sdb2 的第 16 扇区。我按照上面的说明进行操作：在验证文件系统未使用逻辑块 2 并小心地以正确的方式进行 dd 查找和跳过之后，并将 1 个文件系统块归零：

# dd if=/dev/zero of=/dev/md0 bs=4096 count=1 seek=2

这是做什么的？它没有修复坏扇区。我现在知道，这是因为 /dev/md0 没有直接映射到 /dev/sdb2，您必须考虑 RAID 数据偏移！下面详细介绍这一点。它所做的只是我的文件系统上的一个小但可能具有毁灭性的粪便。事实证明 /dev/md0 的逻辑块 2 包含有用的文件系统元数据，并且在两个磁盘上都很好，直到我拉屎了两个都通过写入 /dev/md0 进行复制。幸运的是， e2fsck -y /dev/md0 解决了这个问题（在发出大量惊人的输出之后），没有明显的数据丢失。经验教训：如果 debugfs icheck 显示“未找到块”，并不一定意味着相应的扇区未被使用。

回到数据偏移量：使用 mdadm 查找偏移量，如下所示：

# mdadm --examine /dev/sdb2
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : ef7934b9:24696df9:b89ff03e:b4e5a05b
           Name : XXXXXXXX
  Creation Time : Sat Sep  1 01:20:22 2012
     Raid Level : raid1
   Raid Devices : 2

 Avail Dev Size : 1953241856 (931.38 GiB 1000.06 GB)
     Array Size : 976620736 (931.38 GiB 1000.06 GB)
  Used Dev Size : 1953241472 (931.38 GiB 1000.06 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : f3b5d515:446d4225:c2191fa0:9a9847b8

    Update Time : Thu Sep  6 12:11:24 2012
       Checksum : abb47d8b - correct
         Events : 54


    Device Role : Active device 0
    Array State : AA ('A' == active, '.' == missing)

在本例中，数据偏移量为 262144 个扇区，每扇区 512 字节。如果您从 /dev/md0 进行 dd 并将其与偏移量为 131072K 的原始分区中的数据进行比较，您会发现它们匹配。因此，就我而言，/dev/sdb2 的逻辑块 2（扇区 16--23）甚至不在文件系统中；它们位于 RAID 超级块中，您可以在此处阅读： https://raid.wiki.kernel.org/index.php/RAID_superblock_formats- 对于版本 1.2，它由 256 字节 + 阵列中每个设备 2 字节组成，全部从 4096 字节开始，所以在我的例子中，没有使用坏扇区。 /dev/sdc2（RAID1 阵列的另一半）的相应扇区为零，因此我认为这样做是安全的：

# dd if=/dev/zero of=/dev/sdb2 bs=4096 count=1 seek=2

有效！

Answer

我刚刚在 RAID1 阵列上遇到了几乎相同的问题。坏扇区位于其中一个分区的开头 - /dev/sdb2 的第 16 扇区。我按照上面的说明进行操作：在验证文件系统未使用逻辑块 2 并小心地以正确的方式进行 dd 查找和跳过之后，并将 1 个文件系统块归零：

# dd if=/dev/zero of=/dev/md0 bs=4096 count=1 seek=2

这是做什么的？它没有修复坏扇区。我现在知道，这是因为 /dev/md0 没有直接映射到 /dev/sdb2，您必须考虑 RAID 数据偏移！下面详细介绍这一点。它所做的只是我的文件系统上的一个小但可能具有毁灭性的粪便。事实证明 /dev/md0 的逻辑块 2 包含有用的文件系统元数据，并且在两个磁盘上都很好，直到我拉屎了两个都通过写入 /dev/md0 进行复制。幸运的是， e2fsck -y /dev/md0 解决了这个问题（在发出大量惊人的输出之后），没有明显的数据丢失。经验教训：如果 debugfs icheck 显示“未找到块”，并不一定意味着相应的扇区未被使用。

回到数据偏移量：使用 mdadm 查找偏移量，如下所示：

# mdadm --examine /dev/sdb2
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : ef7934b9:24696df9:b89ff03e:b4e5a05b
           Name : XXXXXXXX
  Creation Time : Sat Sep  1 01:20:22 2012
     Raid Level : raid1
   Raid Devices : 2

 Avail Dev Size : 1953241856 (931.38 GiB 1000.06 GB)
     Array Size : 976620736 (931.38 GiB 1000.06 GB)
  Used Dev Size : 1953241472 (931.38 GiB 1000.06 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : f3b5d515:446d4225:c2191fa0:9a9847b8

    Update Time : Thu Sep  6 12:11:24 2012
       Checksum : abb47d8b - correct
         Events : 54


    Device Role : Active device 0
    Array State : AA ('A' == active, '.' == missing)

在本例中，数据偏移量为 262144 个扇区，每扇区 512 字节。如果您从 /dev/md0 进行 dd 并将其与偏移量为 131072K 的原始分区中的数据进行比较，您会发现它们匹配。因此，就我而言，/dev/sdb2 的逻辑块 2（扇区 16--23）甚至不在文件系统中；它们位于 RAID 超级块中，您可以在此处阅读： https://raid.wiki.kernel.org/index.php/RAID_superblock_formats- 对于版本 1.2，它由 256 字节 + 阵列中每个设备 2 字节组成，全部从 4096 字节开始，所以在我的例子中，没有使用坏扇区。 /dev/sdc2（RAID1 阵列的另一半）的相应扇区为零，因此我认为这样做是安全的：

# dd if=/dev/zero of=/dev/sdb2 bs=4096 count=1 seek=2

有效！

Question 3

如果运行 debian，您很可能在 /etc/cron.d/mdadm 中有一份工作。这将/usr/share/mdadm/checkarray --cron --all --idle --quiet 在每个月的第一个星期日运行。当出现无法纠正的硬件错误时，手动运行该错误以加快重写速度。

Answer

如果运行 debian，您很可能在 /etc/cron.d/mdadm 中有一份工作。这将/usr/share/mdadm/checkarray --cron --all --idle --quiet 在每个月的第一个星期日运行。当出现无法纠正的硬件错误时，手动运行该错误以加快重写速度。

Question 4

如果您有 sw-raid1 并且直接将数据写入其中一个成员，您将立即获得损坏的 raid。如果 sdaX 或 sdbX 是 mdX 的一部分，请勿将数据写入其中。如果您写入 mdX，您会将数据复制到两个驱动器，如果您从 mdX 读取，您将从其中一个驱动器读取数据。

Answer

如果您有 sw-raid1 并且直接将数据写入其中一个成员，您将立即获得损坏的 raid。如果 sdaX 或 sdbX 是 mdX 的一部分，请勿将数据写入其中。如果您写入 mdX，您会将数据复制到两个驱动器，如果您从 mdX 读取，您将从其中一个驱动器读取数据。

Linux - 使用 GPT 修复 RAID1 阵列上的坏块

编辑1：

编辑2

编辑3

答案1

适用于系统上所有 RAID 设备的脚本

答案2

答案3

答案4

相关内容