在注释的 PDF 文件中搜索文本字符串

Question

1. PDF 源代码中的注释字符串

对于 PDF 源代码内注释中的字符串，您可以放心地认为这些字符串未经编码并且显示为纯 ASCII 或 UTF-8 文本。

因此以下命令应该有效：

strings my.pdf | grep -i 'searchstring'

%我应该补充一点，PDF 源代码中的注释将在每行注释的开头用- 字符标记。

此外，当您搜索评论中的字符串时，Adobe Acrobat 和 Adobe Reader 都不会显示任何结果。

您不能假设可以如此轻松地在 PDF 中找到文本。不过，您可以执行以下操作来查找特定字符串：

pdftotext -layout my.pdf - | grep -i 'searchstring'

不过，还有许多其他命令行方法（您自己提到过pdfgrep）。例如pdfgrep：

pdfgrep -n -i 'searchstring' my.pdf

（此处，-n打印与字符串匹配的页码，-i使搜索不区分大小写。）

Answer 1