Lustre - 简单设置的问题

Lustre - 简单设置的问题

问题:我正在尝试评估我们小组使用 Lustre 的可能性。为此,我一直在尝试创建一个简单的系统来探索细微差别。我似乎无法成功通过“llmount.sh”测试。

我所做的:每个系统(配备 70GB HD、2GB RAM 的一次性 PC)都使用 CentOS 6.2 格式化。然后我更新所有内容并从 downloads.whamcloud.com 安装 Lustre 内核,并添加各种(适当的)lustre 和 e2fs RPM 文件。重新启动系统并使用“llmount.sh”进行测试(然后使用“llmountcleanup.sh”清除)。到目前为止一切顺利。

首先,我通过以下方式创建 MDS/MDT 系统:

/usr/sbin/mkfs.lustre --mgs --mdt --fsname=lustre --device-size=200000 --param sys.timeout=20 --mountfsoptions=errors=remount-ro,user_xattr,acl --param lov.stripesize=1048576 --param lov.stripecount=0 --param mdt.identity_upcall=/usr/sbin/l_getidentity --backfstype ldiskfs --reformat /tmp/lustre-mdt1

进而

mkdir -p /mnt/mds1    
mount -t lustre -o loop,user_xattr,acl  /tmp/lustre-mdt1 /mnt/mds1

接下来我采用 3 个系统并通过以下方式创建 2Gb 循环安装:

/usr/sbin/mkfs.lustre --ost --fsname=lustre --device-size=200000 --param sys.timeout=20 --mgsnode=lustre_MDS0@tcp --backfstype ldiskfs --reformat /tmp/lustre-ost1   


mkdir -p /mnt/ost1     
mount -t lustre -o loop  /tmp/lustre-ost1 /mnt/ost1    

MDT 盒上的日志显示 OSS 盒已连接。一切正常。

最后我创建一个客户端并附加到 MDT 框:

mkdir -p /mnt/lustre
mount -t lustre -o user_xattr,acl,flock luster_MDS0@tcp:/lustre /mnt/lustre    

再次,MDT 框上的日志显示客户端连接。似乎成功了。

问题(似乎)就从这里开始。如果我在客户端上执行“df -h”,它会在显示系统驱动器后挂起。如果我尝试在 lustre 安装上创建文件(通过“dd”),会话会挂起,并且无法终止作业。重新启动客户端是唯一的解决方案。

如果我从客户端执行“lctl dl”,它会显示只找到 2/3 OST 盒并且“UP”。

[root@lfsclient0 etc]# lctl dl   
0 UP mgc MGC10.127.24.42@tcp 282d249f-fcb2-b90f-8c4e-2f1415485410 5   
1 UP lov lustre-clilov-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4   
2 UP lmv lustre-clilmv-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4   
3 UP mdc lustre-MDT0000-mdc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5   
4 UP osc lustre-OST0000-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5   
5 UP osc lustre-OST0003-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5   

从客户端执行“lfs df”显示:

[root@lfsclient0 etc]# lfs df  
UUID                   1K-blocks        Used   Available Use% Mounted on  
lustre-MDT0000_UUID       149944       16900      123044  12% /mnt/lustre[MDT:0]  
OST0000             : inactive device  
OST0001             : Resource temporarily unavailable  
OST0002             : Resource temporarily unavailable  
lustre-OST0003_UUID       187464       24764      152636  14% /mnt/lustre[OST:3]  

filesystem summary:       187464       24764      152636  14% /mnt/lustre  

鉴于每个 OSS 盒都有一个 2Gb(环路)安装座,我希望看到这反映在可用尺寸中。

MDS/MDT 盒上没有错误表明多个 OSS/OST 盒已丢失。

编辑:每个系统都有在 /etc/hosts 中定义的所有其他系统和在 iptables 中的条目来提供访问。

SO:我显然犯了几个错误。有什么建议可以告诉我从哪里开始改正它们吗?

答案1

这很可能是 iptables 的问题。

阵列中的所有盒子(MGS、OST、客户端)都需要不受限制地访问端口 988 和任何 LNET 设备。

相关内容