我想在我们的 HPC 上执行 IMB 2017 和 HPCC 1.5.0 基准测试,以确保所有配置均正确。
我们有 32 个计算节点,每个节点有 16 个核心和 32GB 内存。每个节点都有一个 qlogic infiniband 卡,其中一个端口速度为 40Gb/s。
使用的操作系统是 RHEL 6.5 和 IBM Platform HPC 4.2。
Ofed使用的是:IntelIB-OFED.RHEL6-x86_64.3.5.2.34
海湾合作委员会:海湾合作委员会版本4.4.7
我设法使用 IBM 平台 MPI (PMPI) 和 OpenMPI 2.0.1 (OMPI) 编译 IMB 和 HPCC
IMB
当在 Infiniband 链路上使用 PMPI 和 OMPI 执行 IMB 基准测试时,我最多得到#--------------------------------------------------- # Benchmarking PingPong # #processes = 2 #--------------------------------------------------- #bytes #repetitions t[usec] Mbytes/sec 0 1000 1.51 0.00 1 1000 1.51 0.63 ... ... ... ... 2097152 20 675.20 2962.09 4194304 10 1320.45 3029.26
3029MB/s 的吞吐量,我期望更多,接近 4000 Mb/s 这个结果正确吗?
我用过的HPCC这个网站生成测试配置文件。
执行基准测试时,使用少于 25 个节点,测试没有问题,我没有等待测试完成,但我的问题是当我在所有节点上启动基准测试时,2 到 5 秒后我收到此错误信息 :compute014.6359Exhausted 1048576 MQ irecv request descriptors, which usually indicates a user program error or insufficient request descriptors (PSM_MQ_RECVREQS_MAX=1048576)
并且基准测试退出并被杀死,它不是同一个节点,每次都是另一个节点。任何想法?
这是用于启动 hpcc 基准测试的命令:
OMPI :mpirun -np 512 --display-allocation --mca btl self,sm --mca mtl psm --hostfile hosts32 /shared/build/hpcc-150-blas-ompi-201/hpcc hpccinf.txt
PMPI:
mpirun -np 512 -PSM -hostfile hosts32 /shared/build/hpcc-150-blas-pmpi/hpcc hpccinf.txt
如果您需要更多信息,请告诉我。