是否有任何适用于Linux的命令行工具(或工具链),我可以在其中自动屏蔽pdf中给定的正则表达式,或者(也许更好)在匹配中引入噪音,以使与正则表达式匹配的部分在pdf中不可读。
目前我使用 gimp 并手动完成,但这非常烦人,我正在寻找一种方法来自动化它(并且进一步在脚本中使用它)。
答案1
根据 PDF 文件格式的复杂程度,可以实现不同程度的成功。
首先使用 Poppler 将 PDF 文件转换为 HTML pdftohtml
:
pdftohtml -noframes -s <input.pdf>
使用正则表达式模糊特定文本:
sed -i 's/<regexp>/<replacement>/g' <input.html>
将 HTML 文件转换回 PDF:
wkhtmltopdf --no-background --enable-local-file-access <input.html> <output.pdf>
您可能需要使用各种选项来wkhtmltopdf
调整页边距、大小和方向等。请参阅man wkhtmltopdf
。