在 PDF 中查找链接及其位置

在 PDF 中查找链接及其位置

我需要查找 PDF 文件中的所有链接,以及它们所在的页面及其 X/Y 位置。我可以使用任何工具或工具组合来做到这一点吗?

答案1

我还没有听说过有哪个工具可以告诉您某个文本或链接中的坐标pdf文件。甚至有点难以想象,如何可靠地完成这一点 - 我猜该工具必须计算文档中所有文本的几何形状(可能poppler需要对某些标准 pdf 渲染库进行修改) )或以其他方式基于在 pdf 查看器上运行的某些 X 自动化工具进行估计。

您无需太多努力即可执行 grep 查找未加密且未压缩的 pdf 文件中的链接。以下是grep您可以使用的一些搜索示例:

grep -ao "http://[[:print:]]*" TheFile.pdf

grep -ao "http://[[:alnum:]./]*" TheFile.pdf

grep -ao "http://[^ ']*" TheFile.pdf

grep -ao "URI(http://.*[^\])" TheFile.pdf

最后一个应该是最接近阅读文件时可以找到的链接的。不过,您可能需要对这些正则表达式进行一些处理才能从某个文档中提取您真正想要的链接。

如果文档已打包或加密,您必须首先从中提取纯文本版本。使用pdftk或类似的工具来做到这一点。

相关内容