我有一个包含 60000 个文件的目录invasive/
。我只想将 1000 个文件从嵌套子目录中invasive/
移出invasive2/
我尝试执行以下操作:
find invasive/ -type f -exec mv --backup=numbered -t invasive2/ {} + | head -1000
不幸的是它确实有效。有什么想法吗?
答案1
分析
在您的尝试中:
find invasive/ -type f -exec mv --backup=numbered -t invasive2/ {} + | head -1000
head
find
由于没有打印任何内容,因此根本没有输入。
如果你这样做
find … -print -exec mv … {} + | head …
或者
find … -exec mv … {} + -print | head …
然后head
会得到一些输入并退出,find
可以得到SIGPIPE
;但一般来说,信号不会在你需要的时候准确出现。这是因为-exec … {} +
替换了{}
可能很多路径名,一堆路径名。
如果发生
… -print -exec …
-print
,则首先针对将要形成 束的许多路径名执行-exec … {} +
。如果SIGPIPE
发生,则-exec
不会对该束执行 。如果
… -exec … {} + -print
-exec
先对整个路径起作用,然后才对-print
每个路径名单独打印。SIGPIPE
只有在工具打印某些内容时才会发生,因此它无法中断-exec mv
,它只能中断-print
。 如果SIGPIPE
发生,它将阻止find
打印更多路径名;但-exec mv …
已经对整个路径发生了。
您希望仅计算成功的移动操作。如果mv
尝试移动多个文件并成功,那么您就知道所有文件都已移动。如果失败,那么您无法轻松知道移动了多少文件。因此,您需要对mv
尝试移动的每个文件进行单独的操作。所以您需要-exec mv … \;
而不是-exec mv … {} +
(此外,它无论如何都-exec … {} +
不能用作测试find
,它总是返回 true)。
另一个复杂因素是,您无法确保-print
每个文件只打印一行(因为路径名可能包含换行符)。可靠的解决方案是-printf '\n'
(如果您find
支持-printf
)或-exec printf '\n' \;
。
这引出了以下解决方案(尽管有缺陷):
# flawed
find invasive/ -type f -exec mv --backup=numbered -t invasive2/ {} \; -printf '\n' \
| head -n 999 >/dev/null
理论上它的工作原理如下:
- 当且仅当
mv
成功时,才会打印换行符。 head
在 999 个换行符后终止,即在 999 次成功移动操作后终止。 的单独消失head
不会导致find
立即收到SIGPIPE
。 999 次成功移动操作后head
不再存在,但find
仍然有效。find
SIGPIPE
仅在终止后尝试打印某些内容时才会接收head
。这在第 1000 次成功移动操作后发生。
实际上,无法保证head
读取速度足够快,终止速度足够快,以便SIGPIPE
在我们需要时准确触发。这是上述代码中的缺陷。find
和之间有一个缓冲区head
。可能会find
打印比head
指示读取的行更多的行。管道的机制旨在终止前面的工具(此处find
:)最终,而不是在确切的时刻;当我们想find
在 1000 次成功的移动操作之后准确中断时,我们不能依赖它。
中继输出这种方式没有head
缺陷。
find … -print | head -n 1000 | code_that_runs_mv
是一个好的开始,但由于路径名通常可能包含换行符,因此您需要-print0
(不可移植)、head -z
(也不可移植)等等。如果您想计算成功的移动操作,那么它应该是:
find … -print0 | code0_that_runs_mv_and_counts
code0_that_runs_mv_and_counts
至少在 Bash 中,可以将其构建为 shell 脚本。我的尝试如下。
解决方案
find invasive/ -type f -print0 | bash -c '
counter=1000
while [ "$counter" -gt 0 ] && IFS= read -r -d "" pathname; do
</dev/tty mv --backup=numbered -t invasive2/ "$pathname" && ((counter--))
done
' code0_that_runs_mv_and_counts
注意我过去常常</dev/tty mv …
阻止mv
使用 stdin,以防它提示确认或类似的东西。好吧,--backup=numbered
我猜它不应该提示;但一般来说它可能提示,而且我们不希望它从我们的 中读取任何东西find
。
上面的代码不可移植,我不太喜欢它。
便携式*解决方案
如果您find
不支持-print0
或者无法使用bash
(或者您只是喜欢更便携的代码),那么请考虑以下方法:
while :; do echo; done | head -n 999 | find invasive/ -type f -exec sh -c '
for pathname do
</dev/tty mv --backup=numbered -t invasive2/ "$pathname" \
&& { read dummy || { kill -s PIPE "$PPID"; exit 0; } }
done
' find-sh {} +
*据我所知,这里唯一不可移植的东西是mv
选项你使用。如果您不使用--backup=numbered
,那么我们可以将其重写mv
为可移植形式。我添加的所有内容都是可移植的,这就是我将这个解决方案称为可移植的原因。
代码的工作原理如下:
find
启动sh
并向其传递许多路径名作为参数。可能会有多个路径名sh
相继启动,数量无关紧要。sh
尝试mv
循环逐个文件。成功移动操作后,它会尝试read
从继承自 的标准输入中精确移动一行find
。while … | head -n 999
(可以是yes | head -n 999
,但yes
不可移植)生成恰好 999 行。除非我们先用完文件,否则恰好 999reads
行将成功。read
第 1000 次成功的移动操作之后将是第一个read
失败的操作。read
在第 1000 次成功移动操作后,将立即发生失败。它会导致两件事:find
($PPID
,的父进程sh
)获得SIGPIPE
,因此它不会启动更多sh
进程;- 当前
sh
退出,因此它不会处理更多路径名。
笔记
所有代码片段都旨在移动 1000 个文件;有些包含
1000
,有些包含999
在代码中。您可以调整它们以移动 N 个文件,但请注意代码中是否需要 N 或 N-1。计算成功的移动操作是有意义的,但在某些情况下可能会导致潜在的问题。在文件系统之间移动文件时,
mv
会创建副本,然后删除源。删除失败会导致mv
报告非零退出状态,但副本仍然存在。想象一下,您的文件invasive/
对您来说是只读的。在这种情况下,我们的代码会将常规文件复制到,invasive2/
但mv
不会将其计为成功。所有常规文件都将被复制。我使用过
bash -c '…' code0_that_runs_mv_and_counts
, 。如果你对和争论find … -exec sh -c '…' find-sh {} +
感到惊讶,那么请阅读code0_that_runs_mv_and_counts
find-sh
中的第二个 sh 是什么sh -c 'some shell code' sh
?
答案2
你必须head
对find
输出执行命令。喜欢这个(在具有非常有价值的数据的生产环境中,请进行密集测试)
find invasive/ -type f -print0 | head -z -n 1000 | xargs -0 -r -n 1 mv --backup=numbered -t invasive2
更新:
评论完全正确。我总是忘记“特殊字符”,例如换行符。我添加了“零终止符”。感谢您的评论!
看man xargs
:
-n 1
表示每个命令一个参数-r
表示如果为空则不运行-0
表示传入的参数以零结尾 (\0
)
看man head
:
-z
表示传入的参数以零结尾 (\0
)
看man find
:
-print0
表示以零终止传出的字符串 (\0
)