从 HDFS 中删除临时目录

从 HDFS 中删除临时目录

有没有一种聪明的方法可以从 hdfs /tmp 目录中删除旧文件?(只是为了确保,我不是在谈论 unix FS /tmp)

答案1

hadoop fs -stat "%Y" "/path/*"将输出 /path/ 中所有内容的时间戳。使用它以及您认为太年轻的截止值,您可以在 cron 启动的 shell 脚本中清理它。

这可能比解析 hadoop fs 输出的其他内容更智能。

答案2

这是一个可以完成此项工作的小工具(的源代码):https://github.com/mag-/hdfs-cleanup/

我可能会自己编写一个(或将给定的移植到 Python),这样我就不需要在我的公司为 Golang 创建构建链。

对于 Ruby 用户来说还有一个:https://github.com/nmilford/clean-hadoop-tmp

相关内容