评估两个文件之间的差异

2024-5-27 • tag-icon

Unix 中有没有一种方法可以评估两个文本文件的相似或不同程度？

我知道diff，但它只是给了我差异本身。我所追求的只是收到一个答案，即对这两个文本有多相似的某种评估。它们是否包含很多相同的单词，文本是否经常非常相似等等。以高质量的方式评估它实际上非常复杂，所以我想知道是否有人已经这样做了。

最好只收到一个数字，那么 0 可能意味着它们是相同的，而较高的数字意味着它们完全不同。

有diffstat读取正常diff输出并打印一些统计信息的功能仅关于线路。

diff -u fileA fileB | diffstat

或wdiff处理单词差异。

wdiff -123 --statistics fileA fileB

您还可以阅读手册页以找到一些更有趣的选项。

相关内容