使用并行将许多目录拆分为子目录或并行化此任务

Question 1

问题是 shell 扩展后命令行可以占用的字节数有上限，这个限制取决于系统的限制

getconf ARG_MAX

mv {}因此，只要达到最大限制，参数的数量就会根据输入文件名的长度而变化。

避免这种限制同时不放弃使用并行的解决方案是将任务分为两个阶段

ls -tr | parallel -N 100000 --pipe -k "mkdir dir_{#}; parallel -X mv -t dir_{#}"

说明

第一阶段使用选项--pipe将标准输入拆分为确定数量的较小的标准输入，每行包含选项指定的 n 行-N。您可以使用此示例观察效果
```
seq 1000000 | parallel -N 100000 --pipe wc -l
```
给出了 100000 处的精确分割
```
100000
100000
100000
...
```
在第二阶段，内部平行采取较小的标准输入作为执行作业的新标准输入，该-X选项会插入命令行长度允许的尽可能多的参数
```
mkdir dir_{#}; parallel -X mv -t dir_{#}
```

Answer

问题是 shell 扩展后命令行可以占用的字节数有上限，这个限制取决于系统的限制

getconf ARG_MAX

mv {}因此，只要达到最大限制，参数的数量就会根据输入文件名的长度而变化。

避免这种限制同时不放弃使用并行的解决方案是将任务分为两个阶段

ls -tr | parallel -N 100000 --pipe -k "mkdir dir_{#}; parallel -X mv -t dir_{#}"

说明

第一阶段使用选项--pipe将标准输入拆分为确定数量的较小的标准输入，每行包含选项指定的 n 行-N。您可以使用此示例观察效果
```
seq 1000000 | parallel -N 100000 --pipe wc -l
```
给出了 100000 处的精确分割
```
100000
100000
100000
...
```
在第二阶段，内部平行采取较小的标准输入作为执行作业的新标准输入，该-X选项会插入命令行长度允许的尽可能多的参数
```
mkdir dir_{#}; parallel -X mv -t dir_{#}
```

Question 2

这个问题涉及大量IO。我怀疑这parallel在这种情况下是否真的有用。

无论如何，我建议您考虑“传统”方法：

 mkdir dir_{1..10}
 ls -tr | nl | \
    awk '$2 !~ /^dir_/ {i=1+int($1/100000); print $2 | "xargs mv -t dir_"i}'

在哪里

如果可能的话，也比较各自的时间：（time ....并与我们分享结果☺）

Answer

这个问题涉及大量IO。我怀疑这parallel在这种情况下是否真的有用。

无论如何，我建议您考虑“传统”方法：

 mkdir dir_{1..10}
 ls -tr | nl | \
    awk '$2 !~ /^dir_/ {i=1+int($1/100000); print $2 | "xargs mv -t dir_"i}'

在哪里

如果可能的话，也比较各自的时间：（time ....并与我们分享结果☺）

相关内容