将扫描的 PDF 文档中的图像与文本分离

将扫描的 PDF 文档中的图像与文本分离

常规 PDF 文件由矢量元素(例如文本和矢量图形)和其他嵌入数据(例如图像文件)组成。使用以下实用程序提取后者非常容易pdfimages(如所述在此问答中)。

另一方面,扫描的 PDF 文档是扫描页面的汇编。每一页都是一个位图图像,可能与 OCR 生成的可搜索文本层叠加。因此,pdfimages在扫描的 PDF 文档上运行只会提取扫描的页面。

我正在寻找一个应用程序或命令行实用程序,它可以区分扫描的 PDF 文档中的图像和文本并提取前者。

有这样的事存在吗?

答案1

使用 pdfimages PDF 图像提取工具

用法:pdfimages [options] <PDF-file> <image-root>

示例:以 JPEG 格式保存图像

pdfimages -j in.pdf /tmp/out

附言:请有人将此标记为重复:从 PDF 中提取嵌入的图像[感谢pl1nkhttps://askubuntu.com/users/48864/pl1nk]

相关内容