移动 2TB（1000 万个文件 + 目录），我的瓶颈是什么？

Question 1

听说过将大任务拆分为较小的任务吗？

/home/data/repo 包含 1M 个目录，每个目录包含 11 个目录和 10 个文件。总计 2TB。

rsync -a /source/1/ /destination/1/
rsync -a /source/2/ /destination/2/
rsync -a /source/3/ /destination/3/
rsync -a /source/4/ /destination/4/
rsync -a /source/5/ /destination/5/
rsync -a /source/6/ /destination/6/
rsync -a /source/7/ /destination/7/
rsync -a /source/8/ /destination/8/
rsync -a /source/9/ /destination/9/
rsync -a /source/10/ /destination/10/
rsync -a /source/11/ /destination/11/

(...)

咖啡休息时间。

Answer

听说过将大任务拆分为较小的任务吗？

/home/data/repo 包含 1M 个目录，每个目录包含 11 个目录和 10 个文件。总计 2TB。

rsync -a /source/1/ /destination/1/
rsync -a /source/2/ /destination/2/
rsync -a /source/3/ /destination/3/
rsync -a /source/4/ /destination/4/
rsync -a /source/5/ /destination/5/
rsync -a /source/6/ /destination/6/
rsync -a /source/7/ /destination/7/
rsync -a /source/8/ /destination/8/
rsync -a /source/9/ /destination/9/
rsync -a /source/10/ /destination/10/
rsync -a /source/11/ /destination/11/

(...)

咖啡休息时间。

Question 2

事情是这样的：

最初 rsync 将构建文件列表。
由于文件列表的初始排序，构建此列表非常慢。
可以通过使用 ls -f -1 并将其与 xargs 结合用于构建 rsync 将使用的文件集，或者将输出重定向到具有文件列表的文件来避免这种情况。
将此列表而不是文件夹传递给 rsync，将使 rsync 立即开始工作。
这篇文章完美地描述了对包含数百万个文件的文件夹使用 ls -f -1 的技巧：http://unixetc.co.uk/2012/05/20/large-directory-causes-ls-to-hang/

Answer

事情是这样的：

最初 rsync 将构建文件列表。
由于文件列表的初始排序，构建此列表非常慢。
可以通过使用 ls -f -1 并将其与 xargs 结合用于构建 rsync 将使用的文件集，或者将输出重定向到具有文件列表的文件来避免这种情况。
将此列表而不是文件夹传递给 rsync，将使 rsync 立即开始工作。
这篇文章完美地描述了对包含数百万个文件的文件夹使用 ls -f -1 的技巧：http://unixetc.co.uk/2012/05/20/large-directory-causes-ls-to-hang/

Question 3

即使 rsync 很慢（为什么它很慢？也许 -z 会有所帮助）听起来你已经将很多内容移走了，所以你可以继续尝试：

如果您使用了--remove-source-files，那么您可以随后删除空目录。--remove-source-files 将删除所有文件，但将目录保留在那里。

只要确保你不要使用 --remove-source-files 与 --delete 进行多次传递。

另外为了提高速度，您可以使用--inplace

如果您因为尝试在服务器上远程执行此操作而被踢出，请继续在“屏幕”会话中运行此操作。至少这样您可以让它运行。

Answer

即使 rsync 很慢（为什么它很慢？也许 -z 会有所帮助）听起来你已经将很多内容移走了，所以你可以继续尝试：

如果您使用了--remove-source-files，那么您可以随后删除空目录。--remove-source-files 将删除所有文件，但将目录保留在那里。

只要确保你不要使用 --remove-source-files 与 --delete 进行多次传递。

另外为了提高速度，您可以使用--inplace

如果您因为尝试在服务器上远程执行此操作而被踢出，请继续在“屏幕”会话中运行此操作。至少这样您可以让它运行。

Question 4

难道这不能通过结合使用 rsync 和 --inc-recursive 开关以及 cron 来实现吗？

即使是千兆位连接，移动 2 TB 也需要几个小时，没有任何开销。Rsync、mv 或 cp 都会给 I/O 增加不同程度的开销，尤其是在进行校验或其他验证时。

至少使用 --inc-recursive 开关，传输可以在文件列表仍在构建时开始。

我被告知 --inplace 可以提高速度并减少目标所需的空间，但会稍微降低文件完整性——如果不是这样的话，我很想知道。

如果随后使用适当的 rsync 设置（以及挂载远程卷所需的任何设置）创建了 cron 作业，则可以将其设置为最长运行 5:58h（使用 --stop-after=358），并且 cron 可以每 6 小时启动一次。这样，如果它随机停止，它将自动重新启动。--remove-source-files 可以与 rsync 一起使用，并且可以首先使用 find 来删除空的源目录（也许将 rsync 运行时间减少到 5:50h 以允许 find 遍历所有目录）。

我知道 rsync 的速度较慢（根据 OP），但在我看来，这样文件损坏的风险较低。

（坦白说 - 我仍在学习，所以如果我偏离了基础，请尽量温和地告诉我……）

Answer

难道这不能通过结合使用 rsync 和 --inc-recursive 开关以及 cron 来实现吗？

即使是千兆位连接，移动 2 TB 也需要几个小时，没有任何开销。Rsync、mv 或 cp 都会给 I/O 增加不同程度的开销，尤其是在进行校验或其他验证时。

至少使用 --inc-recursive 开关，传输可以在文件列表仍在构建时开始。

我被告知 --inplace 可以提高速度并减少目标所需的空间，但会稍微降低文件完整性——如果不是这样的话，我很想知道。

如果随后使用适当的 rsync 设置（以及挂载远程卷所需的任何设置）创建了 cron 作业，则可以将其设置为最长运行 5:58h（使用 --stop-after=358），并且 cron 可以每 6 小时启动一次。这样，如果它随机停止，它将自动重新启动。--remove-source-files 可以与 rsync 一起使用，并且可以首先使用 find 来删除空的源目录（也许将 rsync 运行时间减少到 5:50h 以允许 find 遍历所有目录）。

我知道 rsync 的速度较慢（根据 OP），但在我看来，这样文件损坏的风险较低。

（坦白说 - 我仍在学习，所以如果我偏离了基础，请尽量温和地告诉我……）

移动 2TB（1000 万个文件 + 目录），我的瓶颈是什么？

背景

尝试 1：`mv`速度很快，但被打断了

尝试 2：`rsync`在构建文件列表 8 小时后进行爬取

尝试 3a：`mv`抱怨

尝试 3b：`cp`8 小时后无果

尝试 4：`rsync`在构建文件列表 8 小时后进行爬取

尝试 5：只剩下 300GB 需要移动，为什么这么痛苦

尝试6：`tar`

尝试 7：切腹

尝试 8：脚本“合并”`mv`

答案1

答案2

答案3

答案4

相关内容

背景

尝试 1：mv速度很快，但被打断了

尝试 2：rsync在构建文件列表 8 小时后进行爬取

尝试 3a：mv抱怨

尝试 3b：cp8 小时后无果

尝试 4：rsync在构建文件列表 8 小时后进行爬取