对文件系统中的所有文件进行重复、可查询、缓存的校验和

对文件系统中的所有文件进行重复、可查询、缓存的校验和

我正在寻找一种方法来有效地管理和利用文件系统中所有文件的文件级校验和。

目标:

  • 可配置、快速刷新 - 仅当其他条件表明可能发生变化(文件大小、时间戳、第一个和最后一个块已更改等)时才对大文件重新进行校验和。我说“可配置”是因为有些用例不能相信时间戳没有更改等。

  • 在整个文件系统中快速查询特定的校验和(换句话说,回答“我已经有这个文件了吗?”的问题)

  • 一种跨文件系统比较数据的方法(无论是在解决方案中本地比较,还是机器可读的导出,以便可以编写脚本进行比较)

  • 支持多个哈希值

  • 重复文件报告(我不指望解决方案能引导我完成交互式重复数据删除会话;机器可读的报告输出就可以了)

  • 最好有:一种可选的(重新)生成每个目录中的传统校验和文件的方法(“CHECKSUM”、“MD5SUM”或类似文件),以便通过 FTP 或 Web 公开的子目录可以轻松使用校验和

关键思想是以这样一种方式缓存哈希,以便可以快速更新和快速查询。

相关内容