我有许多不同的磁盘(主要是硬盘)存储各种文件。我想知道它们是否都以某种形式备份了。鉴于我有数 TB 的文件(显然是备份的备份),我不想再将所有内容备份到新媒体上。我想维护某种形式的文件数据库,并使用它来快速轻松地识别 X 上尚不存在的所有文件到 Y,理想情况下还可以
- 列出 X 上所有未在其他媒体上复制/备份的文件
- 在 X 上删除重复文件
- 列出所有未复制到离线/WORM/异地存储的文件
- 理想情况下还可以通过 EXIF 日期匹配 JPG。
实现这一目标的第一步是维护所有硬盘上文件哈希值的数据库。那么,我该如何维护数 TB 文件的哈希数据库呢?
乍一看哈希深度就足够了,但似乎没有更新现有数据库的方法,因此更新数据库需要扫描数 TB 的文件。杜阿布速度足够快,并且 filename+filesize 可以很好地指示两个文件是否重复;然而,使用哈希显然会更可靠。
答案1
也许没有简单的方法可以做到这一点,并且需要大量脚本。如果是这样,我将脚本保存在: https://github.com/gmatht/joshell/blob/master/mass_file_management/
目前,这些功能除了解析 du 的输出以猜测哪些文件是新文件以及计算存档新文件需要多少 MB 之外,没有其他作用。最好有更好的解决方案。