有没有一种聪明的方法可以从 hdfs /tmp 目录中删除旧文件?(只是为了确保,我不是在谈论 unix FS /tmp)
答案1
hadoop fs -stat "%Y" "/path/*"
将输出 /path/ 中所有内容的时间戳。使用它以及您认为太年轻的截止值,您可以在 cron 启动的 shell 脚本中清理它。
这可能比解析 hadoop fs 输出的其他内容更智能。
答案2
这是一个可以完成此项工作的小工具(的源代码):https://github.com/mag-/hdfs-cleanup/
我可能会自己编写一个(或将给定的移植到 Python),这样我就不需要在我的公司为 Golang 创建构建链。
对于 Ruby 用户来说还有一个:https://github.com/nmilford/clean-hadoop-tmp