总括:尝试使用 mdadm 3.3.2 (Debian Jessie) 将空白分区添加到降级的 RAID1 失败,并显示(工作正常!)阵列“失败”和“--add 无法工作”。它是在告诉我这里存在真正的危险,还是我刚刚遇到了一些奇怪的错误?
详细版本
一夜之间,我的磁盘死掉了。盒子上有5个mdraid阵列;其中一个(RAID10)按预期使用备用重建。在今晚更换磁盘到达之前,RAID6 仍处于降级状态。与 /boot 的 5 磁盘镜像相同。有两个RAID1阵列用于交换;他们共享一个热备用。热备用连接到未发生故障的备用,但它们位于同一备用组中,因此mdadm --monitor
尝试移动备用,但失败了。据我所知,没有给出错误,只是丢失了备用件。
今天早上,退化的镜子看起来像:
md124 : active raid1 sda2[0](F) sdc2[2]
9767448 blocks super 1.2 [2/1] [_U]
bitmap: 0/150 pages [0KB], 32KB chunk
我尝试手动添加备用,并得到:
# mdadm -a /dev/md124 /dev/sdj2
mdadm: /dev/md124 has failed so using --add cannot work and might destroy
mdadm: data on /dev/sdj2. You should stop the array and re-assemble it.
/dev/sdj2
上面有另一个镜像的超级块(作为该镜像中的备用),所以我继续尝试mdadm --zero-superblock /dev/sdj2
,但即使在那之后,添加也会失败并出现相同的错误。我非常确定我可以完成这项工作(例如,我--force
还没有尝试过,或者mdadm -r
在发生故障的磁盘上 - 或者最坏的情况 - 它只是交换 - 重新创建阵列)。
我已经继续并暂时停止使用该数组(它用于交换)。swapoff
对数组执行 I/O 时没有错误,因此看起来并没有失败。
看起来并不是一个太小的设备:
# blockdev --getsize64 /dev/sda2 /dev/sdj2
10001940480
10001940480
所以我希望其他人知道这个错误意味着什么。
如果重要的话,这是 mdadm 3.3.2 (Debian Jessie)。
mdadm-D
# mdadm -D /dev/md124
/dev/md124:
Version : 1.2
Creation Time : Thu Mar 11 20:34:00 2010
Raid Level : raid1
Array Size : 9767448 (9.31 GiB 10.00 GB)
Used Dev Size : 9767448 (9.31 GiB 10.00 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Mon Oct 12 12:35:13 2015
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 1
Spare Devices : 0
Name : Einstein:swap_a (local to host Einstein)
UUID : 3d7da9d2:5ea17db5:3b122196:11968e91
Events : 2044
Number Major Minor RaidDevice State
0 0 0 0 removed
2 8 34 1 active sync /dev/sdc2
0 8 2 - faulty /dev/sda2
mdadm-E
# mdadm -E /dev/sdc2
/dev/sdc2:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 3d7da9d2:5ea17db5:3b122196:11968e91
Name : Einstein:swap_a (local to host Einstein)
Creation Time : Thu Mar 11 20:34:00 2010
Raid Level : raid1
Raid Devices : 2
Avail Dev Size : 19534897 (9.31 GiB 10.00 GB)
Array Size : 9767448 (9.31 GiB 10.00 GB)
Used Dev Size : 19534896 (9.31 GiB 10.00 GB)
Data Offset : 144 sectors
Super Offset : 8 sectors
State : clean
Device UUID : 95e09398:1c155ebd:323371cf:a3acc3ad
Internal Bitmap : 8 sectors from superblock
Update Time : Mon Oct 12 12:35:13 2015
Checksum : 132239e4 - correct
Events : 2044
Device Role : Active device 1
Array State : .A ('A' == active, '.' == missing, 'R' == replacing)
# mdadm -E /dev/sdj2
mdadm: No md superblock detected on /dev/sdj2.
答案1
跟踪mdadm
withgdb
导致我进入一个循环,该循环尝试扫描数组,查找所有已同步的设备。只是它在找到工作的 sdc2 之前就提前停止了。手头上有错误的代码行:
for (d = 0; d < MAX_DISKS && found < array->active_disks; d++) {
很容易发现这个问题在 mdadm git 中得到了修复:
commit d180d2aa2a1770af1ab8520d6362ba331400512f
Author: NeilBrown <[email protected]>
Date: Wed May 6 15:03:50 2015 +1000
Manage: fix test for 'is array failed'.
We 'active_disks' does not count spares, so if array is rebuilding,
this will not necessarily find all devices, so may report an array
as failed when it isn't.
Counting up to nr_disks is better.
Signed-off-by: NeilBrown <[email protected]>
diff --git a/Manage.c b/Manage.c
index d3cfb55..225af81 100644
--- a/Manage.c
+++ b/Manage.c
@@ -827,7 +827,7 @@ int Manage_add(int fd, int tfd, struct mddev_dev *dv,
int d;
int found = 0;
- for (d = 0; d < MAX_DISKS && found < array->active_disks; d++) {
+ for (d = 0; d < MAX_DISKS && found < array->nr_disks; d++) {
disc.number = d;
if (ioctl(fd, GET_DISK_INFO, &disc))
continue;
将该补丁应用于 mdadm 可以解决该问题。尽管奇怪的是,添加磁盘后,尽管/proc/mdstat
显示了备用磁盘,但直到我停止并重新组装阵列后,它才开始重建。