文本经过Adobe专业OCR处理后能恢复原图吗?

文本经过Adobe专业OCR处理后能恢复原图吗?

有人使用(可能是)Adobe Professional OCR 功能对扫描的 pdf 文件进行 OCR。OCR 结果有一些错误,它将文本结果添加回 pdf 文件中的文本图像,覆盖了实际的文本图像,所以我无法分辨文本图像显示的正确图像

经过 Adob​​e 专业 OCR 处理后,我可以恢复文本的原始图像吗?谢谢。

答案1

您可以使用命令行工具轻松列出或提取 PDF 中的所有图像(或仅从特定页面范围中提取)pdfimages。此工具适用于 Linux、Unix、Mac OS X 和 Windows。

 pdfimages -list -f 3 -l 7 my.pdf

-f上述命令列出了从第 3 页( “第一页”)到第 7 页( “最后一页”)的所有图像,-l但不提取它们。

最新版本pdfimages甚至包含了附加信息,例如图像的宽度/高度尺寸、压缩比、色彩空间、位深度、图像编码以及与 PDF 页面自身大小相比的结果分辨率:

kp@mbp:> pdfimages -list -f 3 -l 7 porsches-a4.pdf
 page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
 --------------------------------------------------------------------------------------------
    3     0 image    1920  1440  rgb     3   8  jpeg   no        20  0   175   175  182K 2.2%
    4     1 image    1920  1440  rgb     3   8  jpeg   no        26  0   175   175  130K 1.6%
    5     2 image    1920  1440  rgb     3   8  jpeg   no        32  0   175   175 92.1K 1.1%
    6     3 image    1920  1440  rgb     3   8  jpeg   no        38  0   175   175  233K 2.9%
    7     4 image    1920  1440  rgb     3   8  jpeg   no        44  0   175   175  238K 2.9%

提炼特定页面的 JPEG 图像使用-j参数:

kp@mbp:> pdfimages -j -f 11 -l 11 porsches-a4.pdf prefix

这将提取第 11 页的所有图像。它们的名称将是prefix-000.jpg、等。prefix-001.jpgprefix-002.jpg

笔记:有时无法直接提取为 JPEG。pdfimages仍会提取它们,尽管是PNMPPM格式。您可以使用 ImageMagick 的convert命令轻松地将它们转换为 PNG 或 JPEG:

 convert some.ppm some.png
 convert some.pnm some.jpg

答案2

如果图像仍然存在,则可以提取它们。您可以使用 Photoshop 或类似这样的工具:http://www.somepdf.com/some-pdf-image-extract.html

相关内容