奇怪的问题。在长时间断电(变压器爆炸!)导致 UPS 无法正常工作后,运行 Slackware 13 的服务器崩溃了。自 2009 年 12 月以来,这台机器一直在多用户环境中悄悄地为会计软件和文件存储提供服务,没有出现任何问题!
该机器有两个 500GB SATA 磁盘,设置使用左心室容量在软件之上磁盘阵列1(全部由 slackware 安装程序完成)。通电后,加载initrd image
正常,但在挂载根文件系统时启动失败。
"Failed to mount /dev/Volume00/RootVol on /mnt. No such device or directory."
RootVol 是卷组Volume00 中的逻辑卷。该卷组中还有 3 个其他 LV 文件系统以及交换。我可以安装它们中的任何一个boot#_ prompt
,它们看起来都很好。但是,根文件系统 RootVol 根本不显示.../dev/mapper/Volume00
列出了其他 4 个,但 RootVol 丢失了。
所以,我启动了一张 Linux 救援 CD。 RAID1 卷/dev/md0
出现,您瞧,我可以看到并安装了/dev/Volume00/RootVol
.
现在,/proc/mdstat
显示/dev/md0
正在以降级方式运行,仅使用设备/dev/dm-1
。我不确定这是否意味着我已关闭磁盘...我习惯于在 /proc/mdstat 中看到实际硬盘驱动器... /dev/sda1、/dev/sda2 等。在非 LVM 阵列上。我如何确定哪个磁盘发生故障?/dev/dm-x
设备与/dev/sdx
设备有何关系?我如何让机器从剩余的磁盘启动,该磁盘(似乎)没有问题。阵列中使用的两个硬盘驱动器是 /dev/sda 和 /dev/sdb,整个磁盘。
谁能给我指点有关 /dev/dm-x 设备的教程吗?我看到它们是 LVM 设备dm安装程序文档,但不想在没有很好地理解我正在做的事情的情况下开始搞乱任何事情。我认为 RAID 是在物理设备上构建的,然后卷组是在 raid 设备上构建的...我无法理解为什么会有 LVM 设备显示为磁盘阵列的元素,但我确信有一个该死的充分理由...或者我的根本误解。
这是一些信息:
cat /dev/mdstat 的输出是:
root@sysresccd /mnt/rootvol/etc % cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 dm-1[0]
488287488 blocks [2/1] [U_]
unused devices: <none>
不是我所期望的。我的两个硬盘是 /dev/sda 和 /dev/sdb,/var/log/messages 中没有关于它们的错误,尽管我无法在正在运行的 Live CD 版本中调整日志级别。为什么/proc/mdstat不显示实际设备? /dev/dm-# 设备是什么?
mdadm --detail /dev/md0 的输出是:
root@sysresccd /mnt/rootvol/etc % dmadm -D /dev/md0
zsh: correct 'dmadm' to 'mdadm' [nyae]? y
/dev/md0:
Version : 0.90
Creation Time : Thu Dec 3 11:53:48 2009
Raid Level : raid1
Array Size : 488287488 (465.67 GiB 500.01 GB)
Used Dev Size : 488287488 (465.67 GiB 500.01 GB)
Raid Devices : 2
Total Devices : 1
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Sun Jul 10 12:00:57 2016
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
UUID : a89cbdf5:f83cf3f7:dcc86dce:213c81b2
Events : 0.38
Number Major Minor RaidDevice State
0 253 1 0 active sync /dev/dm-1
2 0 0 2 removed
我猜测要么 a) 我的磁盘出现故障,要么 b) 阵列 /dev/md0 未同步,也许认为磁盘出现故障?
无论如何,机器肯定不会从这种状态启动,我不知道我的哪个硬盘(如果有的话)有问题,也不知道如何修复这个混乱。这是一个具有完整备份的生产服务器...我可以重建它,但真的不想重建它,因为这是一个非常乏味的过程...数据没有任何问题,我猜两个磁盘都没有问题。
没有mdadm.conf
。
fdisk -l
将两个磁盘都显示为 Linux Raid 自动检测,一切看起来都很正常。
的输出dmsetup
是(???是我插入的):
root@sysresccd /mnt/rootvol/etc % dmsetup ls
isw_bfdbfijegh_Volume01 (253:1)
isw_bfdbfijegh_Volume0 (253:0)
Volume00-MediaVol (253:9)
Volume00-RootSnap-cow (253:4) <-- ??? --- "cow" --- ???
Volume00-XplrVol (253:7)
Volume00-RootSnap (253:5)
Volume00-SwapVol (253:8)
Volume00-RootVol (253:3)
Volume00-RootVol-real (253:2) <--- ??? --- "real" --- ???
Volume00-HomeVol (253:6)
我发布了下面的信息作为回复,但建议我编辑这篇原始帖子并将其添加到此处,如下所示:
这是dmsetup
表:
root@sysresccd /mnt/usbhdd1/server_backup/oldroot % dmsetup table
isw_bfdbfijegh_Volume01: 0 976575222 linear 253:0 63
isw_bfdbfijegh_Volume0: 0 976767240 mirror core 2 131072 nosync 2 8:0 0 8:16 0 1 handle_errors
Volume00-MediaVol: 0 209715200 linear 9:127 134218112
Volume00-RootSnap-cow: 0 2097152 linear 9:127 385876352
Volume00-XplrVol: 0 41943040 linear 9:127 83886464
Volume00-RootSnap: 0 20971520 snapshot 253:2 253:4 P 8
Volume00-SwapVol: 0 8388608 linear 9:127 125829504
Volume00-RootVol: 0 20971520 snapshot-origin 253:2
Volume00-RootVol-real: 0 20971520 linear 9:127 384
Volume00-HomeVol: 0 62914560 linear 9:127 20971904
Volume00-HomeVol: 62914560 41943040 linear 9:127 343933312
这是mdadm -E
每个硬盘驱动器的信息。
root@sysresccd /mnt/usbhdd1/server_backup/oldroot % mdadm -E /dev/sda
mdmon: /dev/sda is not attached to Intel(R) RAID controller.
mdmon: /dev/sda is not attached to Intel(R) RAID controller.
/dev/sda:
Magic : Intel Raid ISM Cfg Sig.
Version : 1.1.00
Orig Family : 5b4a335b
Family : 5b4a335b
Generation : 0000000a
Attributes : All supported
UUID : 15980595:45ac18ac:22467c90:56138fde
Checksum : c51f833a correct
MPB Sectors : 1
Disks : 2
RAID Devices : 1
Disk00 Serial : WD-WCASY8349657
State : active
Id : 00000000
Usable Size : 976767240 (465.76 GiB 500.10 GB)
[Volume0]:
UUID : 4b19b799:c2a34a28:0bcca120:36d318a0
RAID Level : 1
Members : 2
Slots : [UU]
Failed disk : none
This Slot : 0
Array Size : 976766976 (465.76 GiB 500.10 GB)
Per Dev Size : 976767240 (465.76 GiB 500.10 GB)
Sector Offset : 0
Num Stripes : 3815496
Chunk Size : 64 KiB
Reserved : 0
Migrate State : idle
Map State : uninitialized
Dirty State : clean
Disk01 Serial : WD-WCASY8288673
State : active
Id : 00010000
Usable Size : 976767240 (465.76 GiB 500.10 GB)
root@sysresccd /mnt/usbhdd1/server_backup/oldroot % mdadm -E /dev/sdb
mdmon: /dev/sdb is not attached to Intel(R) RAID controller.
mdmon: /dev/sdb is not attached to Intel(R) RAID controller.
/dev/sdb:
Magic : Intel Raid ISM Cfg Sig.
Version : 1.1.00
Orig Family : 5b4a335b
Family : 5b4a335b
Generation : 0000000a
Attributes : All supported
UUID : 15980595:45ac18ac:22467c90:56138fde
Checksum : c51f833a correct
MPB Sectors : 1
Disks : 2
RAID Devices : 1
Disk01 Serial : WD-WCASY8288673
State : active
Id : 00010000
Usable Size : 976767240 (465.76 GiB 500.10 GB)
[Volume0]:
UUID : 4b19b799:c2a34a28:0bcca120:36d318a0
RAID Level : 1
Members : 2
Slots : [UU]
Failed disk : none
This Slot : 1
Array Size : 976766976 (465.76 GiB 500.10 GB)
Per Dev Size : 976767240 (465.76 GiB 500.10 GB)
Sector Offset : 0
Num Stripes : 3815496
Chunk Size : 64 KiB
Reserved : 0
Migrate State : idle
Map State : uninitialized
Dirty State : clean
Disk00 Serial : WD-WCASY8349657
State : active
Id : 00000000
Usable Size : 976767240 (465.76 GiB 500.10 GB)
不是initrd
已经有 --assemble 了吗?即使我无法挂载根卷,阵列也已启动...我可以挂载其他 3 个卷,它们位于同一 RAID1 阵列上的同一 VG 中...为什么我可以/dev/Volume00/RootVol
在从救援 CD 启动时挂载? . 从磁盘启动?