将扫描的 PDF 文档中的图像与文本分离

2024-6-3 • tag-icon

常规 PDF 文件由矢量元素（例如文本和矢量图形）和其他嵌入数据（例如图像文件）组成。使用以下实用程序提取后者非常容易pdfimages（如所述在此问答中）。

另一方面，扫描的 PDF 文档是扫描页面的汇编。每一页都是一个位图图像，可能与 OCR 生成的可搜索文本层叠加。因此，pdfimages在扫描的 PDF 文档上运行只会提取扫描的页面。

我正在寻找一个应用程序或命令行实用程序，它可以区分扫描的 PDF 文档中的图像和文本并提取前者。

有这样的事存在吗？

使用 pdfimages PDF 图像提取工具

用法：pdfimages [options] <PDF-file> <image-root>

示例：以 JPEG 格式保存图像

pdfimages -j in.pdf /tmp/out

相关内容