如何仅获取 pdf 文件中某个图案的页码，无论该图案是否为多行？

Question 1

这有点 hacky，但由于您已经使用了 perl 兼容的 RE，您可以使用\K“keep left”修饰符来匹配表达式中的所有内容（以及下一行结束之前的任何其他内容），但将其从输出中排除：

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

然而，输出仍将包含:分隔符。

Answer

这有点 hacky，但由于您已经使用了 perl 兼容的 RE，您可以使用\K“keep left”修饰符来匹配表达式中的所有内容（以及下一行结束之前的任何其他内容），但将其从输出中排除：

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

然而，输出仍将包含:分隔符。

Question 2

添加$0~":"为 awk 识别器。即，您得到以下行：

 .... | awk -F":" '$0~":"{print $1}'

这样，只有当输入行中有“：”时才会打印输出，其他行将被丢弃。

Answer

添加$0~":"为 awk 识别器。即，您得到以下行：

 .... | awk -F":" '$0~":"{print $1}'

这样，只有当输入行中有“：”时才会打印输出，其他行将被丢弃。

相关内容