Unix 中有没有一种方法可以评估两个文本文件的相似或不同程度?
我知道diff
,但它只是给了我差异本身。我所追求的只是收到一个答案,即对这两个文本有多相似的某种评估。它们是否包含很多相同的单词,文本是否经常非常相似等等。以高质量的方式评估它实际上非常复杂,所以我想知道是否有人已经这样做了。
最好只收到一个数字,那么 0 可能意味着它们是相同的,而较高的数字意味着它们完全不同。
答案1
有diffstat
读取正常diff
输出并打印一些统计信息的功能仅关于线路。
diff -u fileA fileB | diffstat
或wdiff
处理单词差异。
wdiff -123 --statistics fileA fileB
您还可以阅读手册页以找到一些更有趣的选项。