常规 PDF 文件由矢量元素(例如文本和矢量图形)和其他嵌入数据(例如图像文件)组成。使用以下实用程序提取后者非常容易pdfimages
(如所述在此问答中)。
另一方面,扫描的 PDF 文档是扫描页面的汇编。每一页都是一个位图图像,可能与 OCR 生成的可搜索文本层叠加。因此,pdfimages
在扫描的 PDF 文档上运行只会提取扫描的页面。
我正在寻找一个应用程序或命令行实用程序,它可以区分扫描的 PDF 文档中的图像和文本并提取前者。
有这样的事存在吗?
答案1
使用 pdfimages PDF 图像提取工具
用法:pdfimages [options] <PDF-file> <image-root>
示例:以 JPEG 格式保存图像
pdfimages -j in.pdf /tmp/out
附言:请有人将此标记为重复:从 PDF 中提取嵌入的图像[感谢pl1nk:https://askubuntu.com/users/48864/pl1nk]