我在具有 30 个节点和 360 个核心的集群上运行带有 Open MPI 的 Torque。我发现
mpirun -np N ~./myjob
和 的wall timeqsub -l nodes=1:ppn=N mpirun -np N ~./myjob
相差很多倍。对于小型作业,它从 1.2 秒增长到 20 秒,从 2 秒增长到 37 秒,依此类推。
对于较大的工作,这种差异变得很重要。如何克服呢?
答案1
显然,这取决于馅料./myjob
。如果此脚本包括文件的创建和读取,那么它们就会被创建氮时间及其读取会造成干扰。如果只是二进制文件,则不会出现速度减慢的情况./myjob
,那么执行时间或多或少是相同的。