首先,我不是系统管理员,只是一个用户。我们的 IT 部门人员流动较大,现有员工不了解我们的 HPC 系统,目前也无法提供帮助。
也就是说,我正在使用在 CentOS Linux 7 上运行的高性能计算集群。我们的集群最近由于暴风雨而断电。前断电,df 命令提供如下输出:
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/md4 723772952 48291720 675481232 7% /
devtmpfs 32828496 0 32828496 0% /dev
tmpfs 32844812 4 32844808 1% /dev/shm
tmpfs 32844812 1010484 31834328 4% /run
tmpfs 32844812 0 32844812 0% /sys/fs/cgroup
/dev/md3 31425544 4035716 27389828 13% /var
/dev/md2 8370176 33068 8337108 1% /tmp
/dev/md123 507684 149533 331940 32% /boot
182.22.0.47:/pool0/data 57316467200 256 57316466944 1% /data
182.22.0.47:/pool0/home 172707177472 115390709760 57316467712 67% /home
tmpfs 6568964 12 6568952 1% /run/user/42
tmpfs 6568964 0 6568964 0% /run/user/1003
所有用户的主目录位于文件系统 182.22.0.47:/pool0/home 上。然而,在我们断电并恢复供电后,我尝试了 df 命令,它产生了以下输出:
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/md4 723772952 48291720 675481232 7% /
devtmpfs 32828496 0 32828496 0% /dev
tmpfs 32844812 4 32844808 1% /dev/shm
tmpfs 32844812 1010484 31834328 4% /run
tmpfs 32844812 0 32844812 0% /sys/fs/cgroup
/dev/md3 31425544 4035716 27389828 13% /var
/dev/md2 8370176 33068 8337108 1% /tmp
/dev/md123 507684 149533 331940 32% /boot
tmpfs 6568964 12 6568952 1% /run/user/42
tmpfs 6568964 0 6568964 0% /run/user/1003
除了缺少以 IP 地址 182.22.0.47 开头的文件系统之外,输出是相同的。
我想弄清楚以下问题:为什么这些文件系统不再安装?起初我以为 182.22.0.47 的节点根本没有通电。不过,我可以通过 SSH 连接到这个节点,没有问题。但是,这样做后,我无法找到用户主目录。此外,磁盘容量(约 450 GB)远低于第一个 df 输出中给出的原始容量(约 161 TB)。
如果可能的话,我很乐意提供更多信息。正如我所提到的,我只是一个用户,而不是系统管理员,所以我可以尝试的内容受到限制。感谢您的时间。
编辑: 回答一下评论,我不确定。你能澄清一下吗?诚然,这不属于我的驾驶室。
然而,自从发布问题以来,我发现远程节点实际上可能有超过 200 TB 的未安装存储(希望其中包含丢失的数据)。我通过 lsblk 命令发现了这一点,该命令产生以下输出:
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 745.2G 0 disk
├─sda1 8:1 0 745.2G 0 part
└─sda9 8:9 0 8M 0 part
sdb 8:16 0 93.2G 0 disk
├─sdb1 8:17 0 93.2G 0 part
└─sdb9 8:25 0 8M 0 part
sdc 8:32 0 93.2G 0 disk
├─sdc1 8:33 0 93.2G 0 part
└─sdc9 8:41 0 8M 0 part
sdd 8:48 0 745.2G 0 disk
├─sdd1 8:49 0 745.2G 0 part
└─sdd9 8:57 0 8M 0 part
sde 8:64 0 447.1G 0 disk
└─md126 9:126 0 424.8G 0 raid1
├─md126p1 259:0 0 500M 0 md /boot
├─md126p2 259:1 0 3.9G 0 md [SWAP]
└─md126p3 259:2 0 420.4G 0 md /
sdf 8:80 0 5.5T 0 disk
├─sdf1 8:81 0 5.5T 0 part
└─sdf9 8:89 0 64M 0 part
sdg 8:96 0 5.5T 0 disk
.
.
.
我认为问题只是卸载文件系统,尽管我不确定。