n 个文件的模糊比较

2024-5-31 • tag-icon

我想知道n个文件之间的个体差异，所以类似于这样：

parallel --tag 'diff {1} {2} | wc -l' ::: * ::: *

这里的一个大问题是二进制文件，单个巨型行与短行的计数相同。

如何生成 n 个文件的模糊差异？

用于ssdeep生成哈希文件：

ssdeep `find .  -type f` > hash

这将给出 90% <= 相似度 < 100% 的对：

ssdeep -m hash `find .  -type f` | grep -E '9[0-9].$'

仅当长段（文件大小的 1% 左右的块）相同时，这才有效。

相关内容