将非常大的数据集从集群传输到存储服务器

Question

我用过rsync+ parallel：

它看起来像这样（未经测试）：

cd src-dir
find . -type f -size +10000 |
  parallel -j100 -X rsync -zR -Ha --inplace ./{} fooserver:/dest-dir/

要处理断开的连接，请使用--appendforrsync和--retriesforparallel：

parallel --retries 987 -j100 -X rsync -zR -Ha --append ./{} fooserver:/dest-dir/

我们假设文件的源头没有改变。

Answer 1

我用过rsync+ parallel：

它看起来像这样（未经测试）：

cd src-dir
find . -type f -size +10000 |
  parallel -j100 -X rsync -zR -Ha --inplace ./{} fooserver:/dest-dir/

要处理断开的连接，请使用--appendforrsync和--retriesforparallel：

parallel --retries 987 -j100 -X rsync -zR -Ha --append ./{} fooserver:/dest-dir/

我们假设文件的源头没有改变。

相关内容