查找两个 PDF 中的文本重叠

查找两个 PDF 中的文本重叠

我有两个 pdf 文件,我想找出两个文件之间的文本重叠。重叠是指当两个文件中至少有四个以下单词一致时,该工具应指示出来。Ubuntu 有这样的工具吗?我看到了 diffpdf,但该工具似乎可以发现两个 pdf 文件之间的细微差别。我正在寻找类似于抄袭工具的东西。例如,该工具应该能够找到 pdf 1 中第 1 页上的文本重叠,以及 pdf 2 中第 10 页上的文本短语。

Ubuntu 有类似的东西吗?

编辑:我正在使用 Ubuntu 16.04 LTS

相关内容