内核报告 RAID 阵列上的写回错误

Question

回顾我的日志和记录，问题几乎肯定是由 md 坏块条目引起的错误克隆当我扩展阵列时，我将这些条目添加到新磁盘。尽管受影响的区域没有任何问题，但这些条目却弄乱了它，并且随着阵列上的文件系统填满并且 XFS 开始使用该区域，写回错误似乎无处不在。我列出了阵列中的所有坏块，清除了它们并禁用了坏块逻辑，然后运行raid6check以检测和修复任何不匹配：

(for i in {a..p}; do mdadm --examine-badblocks /dev/sd$i; done)>badblocks.txt
# edit the resulting file a bit
mdadm --stop /dev/md0
mdadm --assemble /dev/md0 --uuid xxxxxxxx:xxxxxxxx:xxxxxxxx:xxxxxxxx \
      --update=force-no-bbl --bitmap /var/raid/bitmap
while read s _
do
  p=$(($s/1024-115)) # 115 is the array's data offset in chunks
  echo ============$p===============
  raid6check /dev/md0 $(($p-1)) 3 autorepair
done <badblocks.txt

这解决了问题。

Answer 1

回顾我的日志和记录，问题几乎肯定是由 md 坏块条目引起的错误克隆当我扩展阵列时，我将这些条目添加到新磁盘。尽管受影响的区域没有任何问题，但这些条目却弄乱了它，并且随着阵列上的文件系统填满并且 XFS 开始使用该区域，写回错误似乎无处不在。我列出了阵列中的所有坏块，清除了它们并禁用了坏块逻辑，然后运行raid6check以检测和修复任何不匹配：

(for i in {a..p}; do mdadm --examine-badblocks /dev/sd$i; done)>badblocks.txt
# edit the resulting file a bit
mdadm --stop /dev/md0
mdadm --assemble /dev/md0 --uuid xxxxxxxx:xxxxxxxx:xxxxxxxx:xxxxxxxx \
      --update=force-no-bbl --bitmap /var/raid/bitmap
while read s _
do
  p=$(($s/1024-115)) # 115 is the array's data offset in chunks
  echo ============$p===============
  raid6check /dev/md0 $(($p-1)) 3 autorepair
done <badblocks.txt

这解决了问题。

内核报告 RAID 阵列上的写回错误

答案1

相关内容