计算集群断电:文件系统不再可用。可能的原因?

计算集群断电:文件系统不再可用。可能的原因?

首先,我不是系统管理员,只是一个用户。我们的 IT 部门人员流动较大,现有员工不了解我们的 HPC 系统,目前也无法提供帮助。

也就是说,我正在使用在 CentOS Linux 7 上运行的高性能计算集群。我们的集群最近由于暴风雨而断电。断电,df 命令提供如下输出:

Filesystem                 1K-blocks         Used   Available Use% Mounted on
/dev/md4                   723772952     48291720   675481232   7% /
devtmpfs                    32828496            0    32828496   0% /dev
tmpfs                       32844812            4    32844808   1% /dev/shm
tmpfs                       32844812      1010484    31834328   4% /run
tmpfs                       32844812            0    32844812   0% /sys/fs/cgroup
/dev/md3                    31425544      4035716    27389828  13% /var
/dev/md2                     8370176        33068     8337108   1% /tmp
/dev/md123                    507684       149533      331940  32% /boot
182.22.0.47:/pool0/data  57316467200          256 57316466944   1% /data
182.22.0.47:/pool0/home 172707177472 115390709760 57316467712  67% /home
tmpfs                        6568964           12     6568952   1% /run/user/42
tmpfs                        6568964            0     6568964   0% /run/user/1003

所有用户的主目录位于文件系统 182.22.0.47:/pool0/home 上。然而,在我们断电并恢复供电后,我尝试了 df 命令,它产生了以下输出:

Filesystem                 1K-blocks         Used   Available Use% Mounted on
/dev/md4                   723772952     48291720   675481232   7% /
devtmpfs                    32828496            0    32828496   0% /dev
tmpfs                       32844812            4    32844808   1% /dev/shm
tmpfs                       32844812      1010484    31834328   4% /run
tmpfs                       32844812            0    32844812   0% /sys/fs/cgroup
/dev/md3                    31425544      4035716    27389828  13% /var
/dev/md2                     8370176        33068     8337108   1% /tmp
/dev/md123                    507684       149533      331940  32% /boot
tmpfs                        6568964           12     6568952   1% /run/user/42
tmpfs                        6568964            0     6568964   0% /run/user/1003

除了缺少以 IP 地址 182.22.0.47 开头的文件系统之外,输出是相同的。

我想弄清楚以下问题:为什么这些文件系统不再安装?起初我以为 182.22.0.47 的节点根本没有通电。不过,我可以通过 SSH 连接到这个节点,没有问题。但是,这样做后,我无法找到用户主目录。此外,磁盘容量(约 450 GB)远低于第一个 df 输出中给出的原始容量(约 161 TB)。

如果可能的话,我很乐意提供更多信息。正如我所提到的,我只是一个用户,而不是系统管理员,所以我可以尝试的内容受到限制。感谢您的时间。

编辑: 回答一下评论,我不确定。你能澄清一下吗?诚然,这不属于我的驾驶室。

然而,自从发布问题以来,我发现远程节点实际上可能有超过 200 TB 的未安装存储(希望其中包含丢失的数据)。我通过 lsblk 命令发现了这一点,该命令产生以下输出:

    NAME        MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
    sda           8:0    0 745.2G  0 disk  
    ├─sda1        8:1    0 745.2G  0 part  
    └─sda9        8:9    0     8M  0 part  
    sdb           8:16   0  93.2G  0 disk  
    ├─sdb1        8:17   0  93.2G  0 part  
    └─sdb9        8:25   0     8M  0 part  
    sdc           8:32   0  93.2G  0 disk  
    ├─sdc1        8:33   0  93.2G  0 part  
    └─sdc9        8:41   0     8M  0 part  
    sdd           8:48   0 745.2G  0 disk  
    ├─sdd1        8:49   0 745.2G  0 part  
    └─sdd9        8:57   0     8M  0 part  
    sde           8:64   0 447.1G  0 disk  
    └─md126       9:126  0 424.8G  0 raid1 
      ├─md126p1 259:0    0   500M  0 md    /boot
      ├─md126p2 259:1    0   3.9G  0 md    [SWAP]
      └─md126p3 259:2    0 420.4G  0 md    /
    sdf           8:80   0   5.5T  0 disk  
    ├─sdf1        8:81   0   5.5T  0 part  
    └─sdf9        8:89   0    64M  0 part  
    sdg           8:96   0   5.5T  0 disk  
                       .
                       .
                       .

我认为问题只是卸载文件系统,尽管我不确定。

相关内容