我有一个装满文件的文件夹,里面有许多重复的文件。不幸的是,在许多情况下,一个版本是另一个版本的更新版本,因此直接的字节匹配无法找到重复项。(我查看了这个问题,但我从列表中看到的所有内容似乎都只进行字节数比较......)
是否有任何 (Windows) 重复数据删除应用程序可以进行相似性匹配并引导用户查看相关文件?免费软件很好,免费试用也可以接受。即使只是列出相似性列表来告诉我在哪里查看也可能会有用。
编辑:抱歉,我应该提到;这些是基于文本的文件,主要是 DOC、PPT 和 PDF。最有可能发生变化的是内容,但格式也可能不同。即使只是注意到文本变化也可能会有所帮助...
答案1
您可以尝试抄袭检测。抄袭和更新并不呈现出完全相同的相似性,因此它可能会或可能不会给出有用的结果,但有很多可供选择,所以如果一个没有帮助,另一个可能会有帮助。我没有推荐一个特定的程序;你可以试着问你认识的任何老师或教授(最好是计算机科学以外的,因为他们更可能熟悉编程抄袭而不是自然语言抄袭)。
答案2
寻找 ssdeep 和 sdhash。
我从未尝试过 sdhash,但我读到它比 ssdeep 更好。无论如何,两者都提供了一个 CLI,允许计算模糊哈希及其各自的相似性。
应该可以很好地实现你的目标。
附言:抱歉,篇幅短小且缺少链接,但我是移动 ATM。
答案3
我不知道有什么应用程序,但如果大多数内容在各个版本之间是相同的,您可以使用“文件中的单词或短语”选项对目录进行 Windows 搜索。您的查询将是一个特定的短语,该短语在各个版本之间不会发生太大变化(或者至少您认为不会发生太大变化),并且对于该特定文档/文档集而言是相当独特的。这种类型的搜索应该适用于 PDF、DOC 和 PPT,尽管它们不是纯文本文件。这不会让您得到您想要的确切输出,但如果您选择搜索短语并且各个版本之间的内容没有太大差异,它应该会非常有效。