转发同步到 HDFS?(或者继续未完成的 HDFS 上传?)

转发同步到 HDFS?(或者继续未完成的 HDFS 上传?)

有人对进行 HDFS 正向同步有什么好的建议吗?(“正向同步”与“双向同步”相对)

基本上,我有大量文件想要放入 HDFS。文件太大,以至于我经常会在完成之前失去连接。我想做的只是“恢复”文件上传。但是hadoop fs -put只会再次上传整个目录(如果存在则发出警告)。

有人有好的方法来继续未完成的 hdfs 上传吗?

答案1

如果您正在运行足够新的 Hadoop,则可以使用 FUSE 挂载 hdfs 并使用 rsync。

也许还可以构建仅限本地的 hdfs,然后使用 distcp。

相关内容