答案1
你可以试试附近重复项查找器。它并非您要求的确切内容,但它基于 Java,因此它可以在任何 Java 运行的平台上运行(包括 Windows、OS X 和 Linux)。它没有 GUI 界面,但它会找到基于文本的文件(如 TXT、DOC、HTML、PDF 等)的近似重复项。
示例用法
Near Duplicates Finder v.0.1.0
Usage: java com.softcorporation.neardup.DuplicatesFinder parameters ...
Parameters format: -parameter [value]
-start filename[,filename] directory / file(s) to search for duplicates (mandatory)
-report filename report file (by default report goes to ./report.log file)
-score the score to report the duplicate (default is 0.6)
-onlynew find the duplicates only for new documents
-gram number of words in a phrase
-purge clear files list from past runs
-db location of db directory with files list
-delete criteria remove duplicates by criteria (old, new, small, large)
-deletepath pattern remove only matching pattern files (mandatory for delete)
-verbose display progress information (on standard output)
Example: Find duplicates from text files in directory 'docs' and save report in 'report.log'
java com.softcorporation.neardup.DuplicatesFinder -start docs -report report.log
For more information visit web site: http://www.softcorporation.com/products/neardup
答案2
我发现深层FE对于 ssdeep。
此外,sdhash 似乎有一个基于 Web 的 GUI,但它还不是很有用。
答案3
我认为这是重复文件查找器您正在寻找的。有相似性模式,它对源代码文件(文本文件)也非常有效,但它在商业 PRO 版本中可用。