有人对进行 HDFS 正向同步有什么好的建议吗?(“正向同步”与“双向同步”相对)
基本上,我有大量文件想要放入 HDFS。文件太大,以至于我经常会在完成之前失去连接。我想做的只是“恢复”文件上传。但是hadoop fs -put
只会再次上传整个目录(如果存在则发出警告)。
有人有好的方法来继续未完成的 hdfs 上传吗?
答案1
如果您正在运行足够新的 Hadoop,则可以使用 FUSE 挂载 hdfs 并使用 rsync。
也许还可以构建仅限本地的 hdfs,然后使用 distcp。