在 IBM 平台 HPC 上执行 HPCC 和 IMB 基准测试时出现问题

在 IBM 平台 HPC 上执行 HPCC 和 IMB 基准测试时出现问题

我想在我们的 HPC 上执行 IMB 2017 和 HPCC 1.5.0 基准测试,以确保所有配置均正确。

我们有 32 个计算节点,每个节点有 16 个核心和 32GB 内存。每个节点都有一个 qlogic infiniband 卡,其中一个端口速度为 40Gb/s。

使用的操作系统是 RHEL 6.5 和 IBM Platform HPC 4.2。

Ofed使用的是:IntelIB-OFED.RHEL6-x86_64.3.5.2.34

海湾合作委员会:海湾合作委员会版本4.4.7

我设法使用 IBM 平台 MPI (PMPI) 和 OpenMPI 2.0.1 (OMPI) 编译 IMB 和 HPCC

  1. IMB
    当在 Infiniband 链路上使用 PMPI 和 OMPI 执行 IMB 基准测试时,我最多得到

    #---------------------------------------------------
    # Benchmarking PingPong 
    # #processes = 2 
    #---------------------------------------------------
           #bytes #repetitions      t[usec]   Mbytes/sec
                0         1000         1.51         0.00
                1         1000         1.51         0.63
               ...         ...           ...         ...
          2097152           20       675.20      2962.09
          4194304           10      1320.45      3029.26
    

    3029MB/s 的吞吐量,我期望更多,接近 4000 Mb/s 这个结果正确吗?


  2. 我用过的HPCC这个网站生成测试配置文件。
    执行基准测试时,使用少于 25 个节点,测试没有问题,我没有等待测试完成,但我的问题是当我在所有节点上启动基准测试时,2 到 5 秒后我收到此错误信息 :

    compute014.6359Exhausted 1048576 MQ irecv request descriptors, which usually indicates a user program error or insufficient request descriptors (PSM_MQ_RECVREQS_MAX=1048576)
    

    并且基准测试退出并被杀死,它不是同一个节点,每次都是另一个节点。任何想法?
    这是用于启动 hpcc 基准测试的命令:

    OMPI :

    mpirun -np 512 --display-allocation --mca btl self,sm --mca mtl psm --hostfile hosts32 /shared/build/hpcc-150-blas-ompi-201/hpcc hpccinf.txt
    

    PMPI:

    mpirun -np 512 -PSM -hostfile hosts32 /shared/build/hpcc-150-blas-pmpi/hpcc hpccinf.txt
    

如果您需要更多信息,请告诉我。

相关内容