当 PDF 文件仅包含扫描图像时,它只是 PDF 容器内的 JPG 图像吗?

当 PDF 文件仅包含扫描图像时,它只是 PDF 容器内的 JPG 图像吗?

许多扫描仪可以将页面扫描成 PDF 文件。

完成此操作后,PDF 文件真的只是一个包含单个图像的容器吗?该图像通常是 JPG 图像、PDF 图像还是专有格式?

答案1

根据此链接,不 - PDF 会撕开图像并重新创建它 - 有时使用 JPEG 或 JPEG2000 编码。

PDF 文件通常将图像存储为单独的对象(XObject),其中包含图像的原始二进制数据。

重要的是要认识到,这通常不是 Tif、Jpg 或 Png 图像意义上的图像 – 它是像素的二进制数据、用于图像的色彩空间、有关图像的信息。创建 PDF 时会将图像拆分,不同的 PDF 创建工具可能会以非常不同的方式存储同一图像。

有时原始图像数据会调整到页面所需的大小,有时则不会(在这种情况下,它会在绘制时被放大或缩小),不同的 PDF 创建工具以非常不同的方式创建 PDF 文件。

实际像素数据可以压缩,其中一种压缩格式 (DCTDecode) 与 JPEG 中使用的相同(JPX 与 Jpeg2000 相同)。如果您保存此数据,则可以将其作为 JPEG 文件打开,但可能需要进行修改以包含色彩空间数据。

然后将该图像绘制在 PDF 内容流中...一些在眼睛看来是图像的东西也可能是由多幅图像组成,甚至根本不是图像!

所有这些意味着,如果您想从 PDF 中提取图像,您需要从所有原始数据中组装图像 - 它不会存储为您可以直接撕掉的完整图像文件。

相关内容