我们有一台 Broadcom 9361-8i 服务器,连接到两个阵列,一对 14TB SAS SSD 组成 RAID 1,四个磁性 SAS 驱动器组成 RAID 10,三年来一切运行正常。我试图检查这些驱动器上的 SMART 信息,因此我安装了 MegaRAID Storage Manager (MSM),并成功使用 StorCLI 检查了 SMART 数据,所有六个驱动器都运行正常。操作系统是 RHEL 8.4。
但是,下次我重新启动时,带有 SSD 的分区没有挂载(启动分区也没有挂载;我从未连接到此 RAID 控制器的 M.2 驱动器启动)。磁性分区挂载得很好。我尝试过的方法:
#fdisk -l
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 262144 bytes / 262144 bytes
Disklabel type: dos
Disk identifier: 0x64656c69
Device Boot Start End Sectors Size Id Type
/dev/sda1 1 4294967295 4294967295 2T 74 unknown
Partition 1 does not start on physical sector boundary
没有任何分区表或 Linux 文件系统的迹象,只有上面无意义的 2TB DOS 分区。MegaRAID BIOS 实用程序显示硬件方面一切正常,识别 RAID 1 阵列中的两个 14TB 驱动器。
fsck
没有结果,因为它没有看到它能够检查的文件系统。
gparted
只看到一个巨大的 14TB 未分配分区:
gparted 屏幕截图
gparted 中的数据救援预计需要大约两周时间,所以我放弃了。有趣的是,它从 2TB 开始,然后逐渐达到 14TB。
我卸载/删除了 MSM 并重新启动,但无济于事,所以也许这与我的问题无关?在出现此分区错误之前,电源故障(无电涌)导致关机,但如果这导致 SSD 出现问题,那么 MegaRAID BIOS 实用程序中不会显示该问题吗?
最后,我尝试了testdisk
:
Disk /dev/sda - 15 TB / 13 TiB - CHS 1867708 255 63
Partition Start End Size in sectors
P EFI System 2048 1230847 1228800 [EFI System Partition] [NO NAME]
P Linux filesys. data 1230848 3327999 2097152
>P Linux filesys. data 3328000 30004738047 30001410048
最后一个是 14TB,看起来像是我丢失的分区?我的选择是:
Keys A: add partition, L: load backup, T: change type,
Enter: to continue
编辑 - 我在下一个提示中选择了写入分区,这解决了我的问题。
短暂性脑缺血发作
答案1
使用写入找到的分区信息testdisk
然后重新启动解决了我的问题。我仍然无法证明 MegaRAID Storage Manager 首先导致了这个问题,但我并不急于进行复制以找出答案。