有人使用(可能是)Adobe Professional OCR 功能对扫描的 pdf 文件进行 OCR。OCR 结果有一些错误,它将文本结果添加回 pdf 文件中的文本图像,覆盖了实际的文本图像,所以我无法分辨文本图像显示的正确图像
经过 Adobe 专业 OCR 处理后,我可以恢复文本的原始图像吗?谢谢。
答案1
您可以使用命令行工具轻松列出或提取 PDF 中的所有图像(或仅从特定页面范围中提取)pdfimages
。此工具适用于 Linux、Unix、Mac OS X 和 Windows。
pdfimages -list -f 3 -l 7 my.pdf
-f
上述命令列出了从第 3 页( “第一页”)到第 7 页( “最后一页”)的所有图像,-l
但不提取它们。
最新版本pdfimages
甚至包含了附加信息,例如图像的宽度/高度尺寸、压缩比、色彩空间、位深度、图像编码以及与 PDF 页面自身大小相比的结果分辨率:
kp@mbp:> pdfimages -list -f 3 -l 7 porsches-a4.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
3 0 image 1920 1440 rgb 3 8 jpeg no 20 0 175 175 182K 2.2%
4 1 image 1920 1440 rgb 3 8 jpeg no 26 0 175 175 130K 1.6%
5 2 image 1920 1440 rgb 3 8 jpeg no 32 0 175 175 92.1K 1.1%
6 3 image 1920 1440 rgb 3 8 jpeg no 38 0 175 175 233K 2.9%
7 4 image 1920 1440 rgb 3 8 jpeg no 44 0 175 175 238K 2.9%
到提炼特定页面的 JPEG 图像使用-j
参数:
kp@mbp:> pdfimages -j -f 11 -l 11 porsches-a4.pdf prefix
这将提取第 11 页的所有图像。它们的名称将是prefix-000.jpg
、等。prefix-001.jpg
prefix-002.jpg
笔记:有时无法直接提取为 JPEG。pdfimages
仍会提取它们,尽管是PNM
或PPM
格式。您可以使用 ImageMagick 的convert
命令轻松地将它们转换为 PNG 或 JPEG:
convert some.ppm some.png
convert some.pnm some.jpg
答案2
如果图像仍然存在,则可以提取它们。您可以使用 Photoshop 或类似这样的工具:http://www.somepdf.com/some-pdf-image-extract.html