我如何找出是什么破坏了我的 RAID?

我如何找出是什么破坏了我的 RAID?

我安装了 x86_64 Ubuntu 17.10(原版 4.13 内核),配有 SSD 和三个 1TB WD HDD,每个 HDD 都有一个 750GB 分区,用于 1.45TB RAID5 阵列。 SSD/上有我的数据,RAID 阵列上有 LVM 定义,我将其用于/home.

Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10] 
md0 : active raid5 sdc1[3] sdd1[1] sdb1[0]
      1572601856 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
      [====>................]  resync = 21.3% (168261416/786300928) finish=64.7min speed=159157K/sec
      bitmap: 6/6 pages [24KB], 65536KB chunk

它工作得很好,直到圣诞节左右,因为我反复打开计算机并发现:

[    2.334153] md/raid:md0: not clean -- starting background reconstruction
[    2.334164] md/raid:md0: device sdc1 operational as raid disk 2
[    2.334165] md/raid:md0: device sdd1 operational as raid disk 1
[    2.334165] md/raid:md0: device sdb1 operational as raid disk 0
[    2.334333] md/raid:md0: raid level 5 active with 3 out of 3 devices, algorithm 2
[    2.334479] md0: bitmap file is out of date (39126 < 39127) -- forcing full recovery
[    2.334493] md0: bitmap file is out of date, doing full recovery
[    2.422418] md0: detected capacity change from 0 to 1610344300544
[    2.422606] md: resync of RAID array md0
...
[    9.537010] EXT4-fs (dm-0): mounted filesystem with ordered data mode. Opts: (null)

需要明确的是,这是位图本身已过时,因此会发生完整(缓慢)的重新同步。文件系统本身变得干净。我认为这是关机时的计时问题,LVM 正在卸载,但 RAID 在关机前没有停止?当我关闭机器时,我看不到任何奇怪的行为。系统日志显示一些东西正在关闭,仅此而已。

如果我执行停止而不是关闭电源,这会大大减少发生这种情况的可能性,但今天早上它仍然发生,因此在三个月没有想法后终于写下了它。

RAID阵列的详细信息:

/dev/md0:
        Version : 1.2
  Creation Time : Fri Sep 11 17:49:27 2015
     Raid Level : raid5
     Array Size : 1572601856 (1499.75 GiB 1610.34 GB)
  Used Dev Size : 786300928 (749.88 GiB 805.17 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Mon Apr  2 08:38:28 2018
          State : active, resyncing 
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

  Resync Status : 52% complete

           Name : underlay:0  (local to host underlay)
           UUID : 520c8995:8d934562:0e2f5b8e:d460bfed
         Events : 40381

    Number   Major   Minor   RaidDevice State
       0       8       17        0      active sync   /dev/sdb1
       1       8       49        1      active sync   /dev/sdd1
       3       8       33        2      active sync   /dev/sdc1

我什至不知道如何进一步调查此事。我已将 GRUB 设置为禁用启动屏幕,这样我就可以在屏幕上观看 dmesg,但看不到任何有趣的内容。有时我会遇到服务无法退出的情况,systemd 会等待 90 秒才杀死它们。我无法弄清楚它们是什么以及它们是否会导致安全卸载但不安全的 RAID(关闭?禁用?卸载?)。我什至不太明白内核通常如何关闭 RAID 以查看它在这里做错了什么。

其次,如果有关于 RAID 重新同步不会完全破坏我的桌面交互性的任何提示,我们将不胜感激。 IO 节流/proc/sys/dev/raid/speed_limit_max实际上并没有按照我希望的方式工作,我的计算机只是全速同步,例如 10 秒,然后等待 3 秒,因此同步速度较慢使用两个小时还是很烦人。

答案1

问题原来是我的网络安装fstab有时在关闭时挂起。我不确定为什么网络挂载不在 RAID 文件系统内的挂载点上,它们都挂载在/我的 SSD 上。

我只是真正发现它,因为迁移到 18.04 并没有修复它,而且我在启动时出现了延迟,结果证明与 netmount 有关。

相关内容