重复数据删除协助

重复数据删除协助

在磁盘发生故障之前,我们整合了前同事的几个驱动器和 NAS 系统(有些实际上显示出性能下降的迹象)。现在,我们知道同事已经“手动进行 RAID”,也就是“在磁盘之间复制内容”……结果产生了 16TB 的数据集,每个磁盘都被转储到 RAID5 支持的 NAS 上的单独目录中。

所以我继续fdupes运行数据,结果显示总共约 1M 个文件中有高达 9TB 的重复项。问题是:它没有输出列表,而且许多重复文件实际上是合法的重复项(例如,在项目之间反复复制的字体资产)。是否有任何命令行软件工具(这很重要,因为出于性能原因,我必须通过 ssh 访问直接在 NAS 上运行它)可以帮助识别整个树木哪些目录是重复的?

更糟糕的是:部分数据来自 HFS+ Apple 磁盘,部分数据来自旧的 Linux NAS,通过 Mac 的 SMB/CIFS 访问。虽然文件名编码看起来不错,但 NAS 来源的数据转储包含大量.AppleDouble文件。因此,该工具应该能够忽略所有与 Apple 相关的内容(Spotlight、资源分支、缩略图)。

相关内容