评估两个文件之间的差异

评估两个文件之间的差异

Unix 中有没有一种方法可以评估两个文本文件的相似或不同程度?

我知道diff,但它只是给了我差异本身。我所追求的只是收到一个答案,即对这两个文本有多相似的某种评估。它们是否包含很多相同的单词,文本是否经常非常相似等等。以高质量的方式评估它实际上非常复杂,所以我想知道是否有人已经这样做了。

最好只收到一个数字,那么 0 可能意味着它们是相同的,而较高的数字意味着它们完全不同。

答案1

diffstat读取正常diff输出并打印一些统计信息的功能仅关于线路

diff -u fileA fileB | diffstat

wdiff处理单词差异

wdiff -123 --statistics fileA fileB

您还可以阅读手册页以找到一些更有趣的选项。

相关内容