Linux MD RAID 与 btrfs 卡住并消耗 100% CPU

2024-6-1 • tag-icon

在过去的几周里，我的物理服务器上安装了 Linux 软件 RAID 6（md、mdadm）和 btrfs 文件系统，遇到了一些烦人的问题。

每隔几天（我注意到，这种情况并不常见），这个md1_raid6过程就会开始消耗一个 CPU 核心的 100%在此期间，此 raid 设备上的 btrfs 上的所有文件系统访问都会卡住（用户空间进程挂起磁盘睡眠状态）。

在大多数情况下，在执行几个“IO”操作（例如列出文件（ls）、访问 btrfs 信息（btrfs filesystem、btrfs subvolume）或访问设备（dd等））之后，文件系统会神奇地解脱了并md1_raid6从其“活动锁”（或任何循环锁）中释放进程。

有时最糟糕的情况是，当我没有成功使用这种“魔法解开”时。然后我甚至无法杀进程停滞磁盘睡眠状态，我被迫重置系统。

当我的问题发生时，我经常在内核dmesg日志中发现类似的消息：

INFO: task md1_reclaim:910 blocked for more than 120 seconds.

包含呼叫跟踪。

但是，还有一些“被阻止”的任务，例如btrfs还btrfs-transaction包括呼叫跟踪。

操作系统信息

硬件信息

RAID 信息

所有 Linux MD RAID（未使用 HW RAID）
RAID1 基于 2 个 SSD ( md0)
- 在此 RAID1 之上是一个具有以下逻辑卷的 LVM：
  - 根文件系统
  - 交换
  - RAID6 写入日志
RAID6 通过 6 个 HDD 和 1 个 LV 作为写入日志（md1）
- 这是受影响的设备

使用信息

其他IO操作

相关内容