从命令行屏蔽 pdf 文件中的正则表达式

从命令行屏蔽 pdf 文件中的正则表达式

是否有任何适用于Linux的命令行工具(或工具链),我可以在其中自动屏蔽pdf中给定的正则表达式,或者(也许更好)在匹配中引入噪音,以使与正则表达式匹配的部分在pdf中不可读。

目前我使用 gimp 并手动完成,但这非常烦人,我正在寻找一种方法来自动化它(并且进一步在脚本中使用它)。

答案1

根据 PDF 文件格式的复杂程度,可以实现不同程度的成功。

首先使用 Poppler 将 PDF 文件转换为 HTML pdftohtml

pdftohtml -noframes -s <input.pdf>

使用正则表达式模糊特定文本:

sed -i 's/<regexp>/<replacement>/g' <input.html>

将 HTML 文件转换回 PDF:

wkhtmltopdf --no-background --enable-local-file-access <input.html> <output.pdf>

您可能需要使用各种选项来wkhtmltopdf调整页边距、大小和方向等。请参阅man wkhtmltopdf

相关内容