在 pdf 中查找重复的单词

在 pdf 中查找重复的单词

有没有一种简单的方法可以找到拼写错误,例如:“嗨,我的名字是约翰”,其中“我的”和“是”写了两次?我发现了类似的这里使用grep,但显然您必须在终端中插入要搜索的整个文本。当搜索较大的文本文件时,这可能会非常有限。有没有办法可以搜索整个 pdf 文件?

答案1

您可以通过管道输出pdftotext工具命令grep

pdftotext <pdffile> - |  grep -Eo '(\b.+) \1\b'

为了在 PDF 文件中搜索预定的字符串,还有一个工具叫做pdfgrep。但是它不允许像参考示例中那样的复杂正则表达式。

相关内容