文本经过Adobe专业OCR处理后能恢复原图吗？

Question 1

您可以使用命令行工具轻松列出或提取 PDF 中的所有图像（或仅从特定页面范围中提取）pdfimages。此工具适用于 Linux、Unix、Mac OS X 和 Windows。

 pdfimages -list -f 3 -l 7 my.pdf

-f上述命令列出了从第 3 页（ “第一页”）到第 7 页（ “最后一页”）的所有图像，-l但不提取它们。

最新版本pdfimages甚至包含了附加信息，例如图像的宽度/高度尺寸、压缩比、色彩空间、位深度、图像编码以及与 PDF 页面自身大小相比的结果分辨率：

kp@mbp:> pdfimages -list -f 3 -l 7 porsches-a4.pdf
 page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
 --------------------------------------------------------------------------------------------
    3     0 image    1920  1440  rgb     3   8  jpeg   no        20  0   175   175  182K 2.2%
    4     1 image    1920  1440  rgb     3   8  jpeg   no        26  0   175   175  130K 1.6%
    5     2 image    1920  1440  rgb     3   8  jpeg   no        32  0   175   175 92.1K 1.1%
    6     3 image    1920  1440  rgb     3   8  jpeg   no        38  0   175   175  233K 2.9%
    7     4 image    1920  1440  rgb     3   8  jpeg   no        44  0   175   175  238K 2.9%

到提炼特定页面的 JPEG 图像使用-j参数：

kp@mbp:> pdfimages -j -f 11 -l 11 porsches-a4.pdf prefix

这将提取第 11 页的所有图像。它们的名称将是prefix-000.jpg、等。prefix-001.jpgprefix-002.jpg

笔记：有时无法直接提取为 JPEG。pdfimages仍会提取它们，尽管是PNM或PPM格式。您可以使用 ImageMagick 的convert命令轻松地将它们转换为 PNG 或 JPEG：

 convert some.ppm some.png
 convert some.pnm some.jpg

Answer