我有一个 bash 脚本,它接受三个长度相等的数组作为输入:METHODS
、INFILES
和OUTFILES
。
该脚本将解决所有索引( )METHODS[i]
的问题INFILES[i]
并将结果保存到。OUTFILES[i]
i
0 <= i <= length-1
中的每个元素METHODS
都是以下形式的字符串:
$HOME/program/solver -a <method>
其中solver是一个程序,可以按如下方式调用:
$HOME/program/solver -a <method> -m <input file> -o <output file> --timeout <timeout in seconds>
该脚本解决了所有问题平行线并将每个实例的运行时间限制设置为1小时(不过有些方法可以很快解决一些问题),如下:
#!/bin/bash
source METHODS
source INFILES
source OUTFILES
start=`date +%s`
## Solve in PARALLEL
for index in ${!OUTFILES[*]}; do
(alg=${METHODS[$index]}
infile=${INFILES[$index]}
outfile=${OUTFILES[$index]}
${!alg} -m $infile -o $outfile --timeout 3600) &
done
wait
end=`date +%s`
runtime=$((end-start))
echo "Total runtime = $runtime (s)"
echo "Total number of processes = ${#OUTFILES[@]}"
上面我有length = 619
.我将此 bash 提交给具有 70 个可用处理器的集群,这最多需要 9 小时才能完成所有任务。然而,现实情况并非如此。当使用该top
命令进行调查时,我发现只有两三个进程正在运行(state = R
),而其他所有进程都在睡眠(state = D
)。
请问我做错了什么?
此外,我还了解到GNU并行对于运行并行作业会更好。我如何使用它来完成上述任务?
非常感谢您的帮助!
更新:我第一次尝试 GNU 并行:
这个想法是将所有命令写入一个文件,然后使用 GNU 并行来执行它们:
#!/bin/bash
source METHODS
source INFILES
source OUTFILES
start=`date +%s`
## Write to file
firstline=true
for index in ${!OUTFILES[*]}; do
(alg=${METHODS[$index]}
infile=${INFILES[$index]}
outfile=${OUTFILES[$index]}
if [ "$firstline" = true ] ; then
echo "${!alg} -m $infile -o $outfile --timeout 3600" > commands.txt
firstline=false
else
echo "${!alg} -m $infile -o $outfile --timeout 3600" >> commands.txt
fi
done
## Solve in PARALLEL
time parallel :::: commands.txt
end=`date +%s`
runtime=$((end-start))
echo "Total runtime = $runtime (s)"
echo "Total number of processes = ${#OUTFILES[@]}"
你怎么认为?
更新2:我正在使用 GNU 并行并遇到同样的问题。这是输出top
:
top - 02:05:25 up 178 days, 8:16, 2 users, load average: 62.59, 59.90, 53.29
Tasks: 596 total, 7 running, 589 sleeping, 0 stopped, 0 zombie
Cpu(s): 12.9%us, 0.9%sy, 0.0%ni, 63.3%id, 22.9%wa, 0.0%hi, 0.1%si, 0.0%st
Mem: 264139632k total, 260564864k used, 3574768k free, 4564k buffers
Swap: 268420092k total, 80593460k used, 187826632k free, 53392k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
28542 khue 20 0 7012m 5.6g 1816 R 100 2.2 12:50.22 opengm_min_sum
28553 khue 20 0 11.6g 11g 1668 R 100 4.4 17:37.37 opengm_min_sum
28544 khue 20 0 13.6g 8.6g 2004 R 100 3.4 12:41.67 opengm_min_sum
28549 khue 20 0 13.6g 8.7g 2000 R 100 3.5 2:54.36 opengm_min_sum
28551 khue 20 0 11.6g 11g 1668 R 100 4.4 19:48.36 opengm_min_sum
28528 khue 20 0 6934m 4.9g 1732 R 29 1.9 1:01.13 opengm_min_sum
28563 khue 20 0 7722m 6.7g 1680 D 2 2.7 0:56.74 opengm_min_sum
28566 khue 20 0 8764m 7.9g 1680 D 2 3.1 1:00.13 opengm_min_sum
28530 khue 20 0 5686m 4.8g 1732 D 1 1.9 0:56.23 opengm_min_sum
28534 khue 20 0 5776m 4.6g 1744 D 1 1.8 0:53.46 opengm_min_sum
28539 khue 20 0 6742m 5.0g 1732 D 1 2.0 0:58.95 opengm_min_sum
28548 khue 20 0 5776m 4.7g 1744 D 1 1.9 0:55.67 opengm_min_sum
28559 khue 20 0 8258m 7.1g 1680 D 1 2.8 0:57.90 opengm_min_sum
28564 khue 20 0 10.6g 10g 1680 D 1 4.0 1:08.75 opengm_min_sum
28529 khue 20 0 5686m 4.4g 1732 D 1 1.7 1:05.55 opengm_min_sum
28531 khue 20 0 4338m 3.6g 1724 D 1 1.4 0:57.72 opengm_min_sum
28533 khue 20 0 6064m 5.2g 1744 D 1 2.1 1:05.19 opengm_min_sum
(opengm_min_sum
就是solver
上面的)
我猜测某些进程消耗了太多资源,以至于其他进程没有剩余任何资源并进入 D 状态?
答案1
从版本 20160422 开始,您可以执行以下操作:
## Solve in PARALLEL
parallel {1} -m {2} -o {3} --timeout 3600 ::: "${METHODS[@]}" :::+ "${INFILES[@]}" :::+ "${OUTFILES[@]}"
如果您有旧版本:
## Solve in PARALLEL
parallel --xapply {1} -m {2} -o {3} --timeout 3600 ::: "${METHODS[@]}" ::: "${INFILES[@]}" ::: "${OUTFILES[@]}"
花一个小时逛完man parallel_tutorial
。您的命令行会因此而喜欢您。
答案2
评论摘要: 机器速度很快,但没有足够的内存来并行运行所有内容。另外问题是需要读取大量数据而磁盘带宽不够,所以cpu大部分时间都处于空闲状态等待数据。
重新安排任务会有所帮助。
尚未研究压缩数据是否可以提高有效磁盘 I/O 带宽。