Linux如何将n个文件从嵌套子目录从一个目录移动到另一个目录

Linux如何将n个文件从嵌套子目录从一个目录移动到另一个目录

我有一个包含 60000 个文件的目录invasive/。我只想将 1000 个文件从嵌套子目录中invasive/移出invasive2/

我尝试执行以下操作: find invasive/ -type f -exec mv --backup=numbered -t invasive2/ {} + | head -1000

不幸的是它确实有效。有什么想法吗?

答案1

分析

在您的尝试中:

find invasive/ -type f -exec mv --backup=numbered -t invasive2/ {} + | head -1000

headfind由于没有打印任何内容,因此根本没有输入。

如果你这样做

find … -print -exec mv … {} + | head …

或者

find … -exec mv … {} + -print | head …

然后head会得到一些输入并退出,find可以得到SIGPIPE;但一般来说,信号不会在你需要的时候准确出现。这是因为-exec … {} +替换了{}可能很多路径名,一堆路径名。

  • 如果发生… -print -exec … -print,则首先针对将要形成 束的许多路径名执行-exec … {} +。如果SIGPIPE发生,则-exec不会对该束执行 。

  • 如果… -exec … {} + -print -exec先对整个路径起作用,然后才对-print每个路径名单独打印。SIGPIPE只有在工具打印某些内容时才会发生,因此它无法中断-exec mv,它只能中断-print。 如果SIGPIPE发生,它将阻止find打印更多路径名;但-exec mv …已经对整个路径发生了。

您希望仅计算成功的移动操作。如果mv尝试移动多个文件并成功,那么您就知道所有文件都已移动。如果失败,那么您无法轻松知道移动了多少文件。因此,您需要对mv尝试移动的每个文件进行单独的操作。所以您需要-exec mv … \;而不是-exec mv … {} +(此外,它无论如何都-exec … {} +不能用作测试find,它总是返回 true)。

另一个复杂因素是,您无法确保-print每个文件只打印一行(因为路径名可能包含换行符)。可靠的解决方案是-printf '\n'(如果您find支持-printf)或-exec printf '\n' \;

这引出了以下解决方案(尽管有缺陷):

# flawed
find invasive/ -type f -exec mv --backup=numbered -t invasive2/ {} \; -printf '\n' \
| head -n 999 >/dev/null

理论上它的工作原理如下:

  • 当且仅当mv成功时,才会打印换行符。
  • head在 999 个换行符后终止,即在 999 次成功移动操作后终止。 的单独消失head不会导致find立即收到SIGPIPE。 999 次成功移动操作后head不再存在,但find仍然有效。
  • findSIGPIPE仅在终止后尝试打印某些内容时才会接收head。这在第 1000 次成功移动操作后发生。

实际上,无法保证head读取速度足够快,终止速度足够快,以便SIGPIPE在我们需要时准确触发。这是上述代码中的缺陷。find和之间有一个缓冲区head。可能会find打印比head指示读取的行更多的行。管道的机制旨在终止前面的工具(此处find:)最终,而不是在确切的时刻;当我们想find在 1000 次成功的移动操作之后准确中断时,我们不能依赖它。

中继输出这种方式没有head缺陷。

find … -print | head -n 1000 | code_that_runs_mv

是一个好的开始,但由于路径名通常可能包含换行符,因此您需要-print0(不可移植)、head -z(也不可移植)等等。如果您想计算成功的移动操作,那么它应该是:

find … -print0 | code0_that_runs_mv_and_counts

code0_that_runs_mv_and_counts至少在 Bash 中,可以将其构建为 shell 脚本。我的尝试如下。


解决方案

find invasive/ -type f -print0 | bash -c '
   counter=1000
   while [ "$counter" -gt 0 ] && IFS= read -r -d "" pathname; do
      </dev/tty mv --backup=numbered -t invasive2/ "$pathname" && ((counter--))
   done
' code0_that_runs_mv_and_counts

注意我过去常常</dev/tty mv …阻止mv使用 stdin,以防它提示确认或类似的东西。好吧,--backup=numbered我猜它不应该提示;但一般来说它可能提示,而且我们不希望它从我们的 中读取任何东西find

上面的代码不可移植,我不太喜欢它。


便携式*解决方案

如果您find不支持-print0或者无法使用bash(或者您只是喜欢更便携的代码),那么请考虑以下方法:

while :; do echo; done | head -n 999 | find invasive/ -type f -exec sh -c '
   for pathname do
      </dev/tty mv --backup=numbered -t invasive2/ "$pathname" \
      && { read dummy || { kill -s PIPE "$PPID"; exit 0; } }
   done
' find-sh {} +

*据我所知,这里唯一不可移植的东西是mv选项使用。如果您不使用--backup=numbered,那么我们可以将其重写mv为可移植形式。我添加的所有内容都是可移植的,这就是我将这个解决方案称为可移植的原因。

代码的工作原理如下:

  • find启动sh并向其传递许多路径名作为参数。可能会有多个路径名sh相继启动,数量无关紧要。

  • sh尝试mv循环逐个文件。成功移动操作后,它会尝试read从继承自 的标准输入中精确移动一行find

  • while … | head -n 999(可以是yes | head -n 999,但yes不可移植)生成恰好 999 行。除非我们先用完文件,否则恰好 999reads行将成功。read第 1000 次成功的移动操作之后将是第一个read失败的操作。

  • read在第 1000 次成功移动操作后,将立即发生失败。它会导致两件事:

    • find$PPID,的父进程sh)获得SIGPIPE,因此它不会启动更多sh进程;
    • 当前sh退出,因此它不会处理更多路径名。

笔记

  • 所有代码片段都旨在移动 1000 个文件;有些包含1000,有些包含999在代码中。您可以调整它们以移动 N 个文件,但请注意代码中是否需要 N 或 N-1。

  • 计算成功的移动操作是有意义的,但在某些情况下可能会导致潜在的问题。在文件系统之间移动文件时,mv会创建副本,然后删除源。删除失败会导致mv报告非零退出状态,但副本仍然存在。想象一下,您的文件invasive/对您来说是只读的。在这种情况下,我们的代码会将常规文件复制到,invasive2/mv不会将其计为成功。所有常规文件都将被复制。

  • 我使用过bash -c '…' code0_that_runs_mv_and_counts, 。如果你对和争论find … -exec sh -c '…' find-sh {} +感到惊讶,那么请阅读code0_that_runs_mv_and_countsfind-sh中的第二个 sh 是什么sh -c 'some shell code' sh

答案2

你必须headfind输出执行命令。喜欢这个(在具有非常有价值的数据的生产环境中,请进行密集测试)

find invasive/ -type f -print0 | head -z -n 1000 | xargs -0 -r -n 1 mv --backup=numbered -t invasive2

更新:

评论完全正确。我总是忘记“特殊字符”,例如换行符。我添加了“零终止符”。感谢您的评论!

man xargs

  • -n 1表示每个命令一个参数
  • -r表示如果为空则不运行
  • -0表示传入的参数以零结尾 ( \0)

man head

  • -z表示传入的参数以零结尾 ( \0)

man find

  • -print0表示以零终止传出的字符串 ( \0)

相关内容