如何运行 pdftotext ... | grep 处理很多文档?

如何运行 pdftotext ... | grep 处理很多文档?

适用于单个文档的代码

pdftotext *.pdf - | grep therapy

您可以find按照线程中的描述使用如何在 PDF 文件中执行 grep 操作?但我想了解为什么上面的命令不起作用。

差异化代码pdfgrep可能会带来一些好处,但仍处于开发早期

pdftotext *.pdf - | pdfgrep therapy
#Wrong syntax so error
# Usage: pdfgrep [OPTION]... PATTERN FILE...
# Syntax Warning: Invalid Font Weight
# Syntax Warning: Invalid Font Weight

如果有很好的匹配,我想找到一种快速移动到特定 pdf 页面的方法。然而,我还没有发现任何证据表明存在这样的功能。

操作系统:Debian 8.5
Linux 内核:4.6 向后移植
硬件:Asus Zenbook UX303UA
Poppler-utils:pdftotext

答案1

直接使用即可pdfgrep

pdfgrep -n therapy *.pdf

-n选项将显示每场比赛的页码。

答案2

你可以试试这个;

pdfgrep therapy *.pdf

或者

find /tmp -name '*.pdf' -exec pdfgrep test {} +

例如;

user@host $ pdfgrep test *.pdf 
1.pdf:test1
1.pdf:test2
1.pdf:test3
2.pdf:test1
2.pdf:test2
2.pdf:test3
test (copy).pdf:test1
test (copy).pdf:test2
test (copy).pdf:test3


user@host $ find /tmp -name '*.pdf' -exec pdfgrep test {} +
/tmp/test (copy).pdf:test1
/tmp/test (copy).pdf:test2
/tmp/test (copy).pdf:test3
/tmp/1.pdf:test1
/tmp/1.pdf:test2
/tmp/1.pdf:test3
/tmp/2.pdf:test1
/tmp/2.pdf:test2
/tmp/2.pdf:test3

相关内容