问题:我正在尝试评估我们小组使用 Lustre 的可能性。为此,我一直在尝试创建一个简单的系统来探索细微差别。我似乎无法成功通过“llmount.sh”测试。
我所做的:每个系统(配备 70GB HD、2GB RAM 的一次性 PC)都使用 CentOS 6.2 格式化。然后我更新所有内容并从 downloads.whamcloud.com 安装 Lustre 内核,并添加各种(适当的)lustre 和 e2fs RPM 文件。重新启动系统并使用“llmount.sh”进行测试(然后使用“llmountcleanup.sh”清除)。到目前为止一切顺利。
首先,我通过以下方式创建 MDS/MDT 系统:
/usr/sbin/mkfs.lustre --mgs --mdt --fsname=lustre --device-size=200000 --param sys.timeout=20 --mountfsoptions=errors=remount-ro,user_xattr,acl --param lov.stripesize=1048576 --param lov.stripecount=0 --param mdt.identity_upcall=/usr/sbin/l_getidentity --backfstype ldiskfs --reformat /tmp/lustre-mdt1
进而
mkdir -p /mnt/mds1
mount -t lustre -o loop,user_xattr,acl /tmp/lustre-mdt1 /mnt/mds1
接下来我采用 3 个系统并通过以下方式创建 2Gb 循环安装:
/usr/sbin/mkfs.lustre --ost --fsname=lustre --device-size=200000 --param sys.timeout=20 --mgsnode=lustre_MDS0@tcp --backfstype ldiskfs --reformat /tmp/lustre-ost1
mkdir -p /mnt/ost1
mount -t lustre -o loop /tmp/lustre-ost1 /mnt/ost1
MDT 盒上的日志显示 OSS 盒已连接。一切正常。
最后我创建一个客户端并附加到 MDT 框:
mkdir -p /mnt/lustre
mount -t lustre -o user_xattr,acl,flock luster_MDS0@tcp:/lustre /mnt/lustre
再次,MDT 框上的日志显示客户端连接。似乎成功了。
问题(似乎)就从这里开始。如果我在客户端上执行“df -h”,它会在显示系统驱动器后挂起。如果我尝试在 lustre 安装上创建文件(通过“dd”),会话会挂起,并且无法终止作业。重新启动客户端是唯一的解决方案。
如果我从客户端执行“lctl dl”,它会显示只找到 2/3 OST 盒并且“UP”。
[root@lfsclient0 etc]# lctl dl
0 UP mgc MGC10.127.24.42@tcp 282d249f-fcb2-b90f-8c4e-2f1415485410 5
1 UP lov lustre-clilov-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4
2 UP lmv lustre-clilmv-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4
3 UP mdc lustre-MDT0000-mdc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5
4 UP osc lustre-OST0000-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5
5 UP osc lustre-OST0003-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5
从客户端执行“lfs df”显示:
[root@lfsclient0 etc]# lfs df
UUID 1K-blocks Used Available Use% Mounted on
lustre-MDT0000_UUID 149944 16900 123044 12% /mnt/lustre[MDT:0]
OST0000 : inactive device
OST0001 : Resource temporarily unavailable
OST0002 : Resource temporarily unavailable
lustre-OST0003_UUID 187464 24764 152636 14% /mnt/lustre[OST:3]
filesystem summary: 187464 24764 152636 14% /mnt/lustre
鉴于每个 OSS 盒都有一个 2Gb(环路)安装座,我希望看到这反映在可用尺寸中。
MDS/MDT 盒上没有错误表明多个 OSS/OST 盒已丢失。
编辑:每个系统都有在 /etc/hosts 中定义的所有其他系统和在 iptables 中的条目来提供访问。
SO:我显然犯了几个错误。有什么建议可以告诉我从哪里开始改正它们吗?
答案1
这很可能是 iptables 的问题。
阵列中的所有盒子(MGS、OST、客户端)都需要不受限制地访问端口 988 和任何 LNET 设备。