许多扫描仪可以将页面扫描成 PDF 文件。
完成此操作后,PDF 文件真的只是一个包含单个图像的容器吗?该图像通常是 JPG 图像、PDF 图像还是专有格式?
答案1
根据此链接,不 - PDF 会撕开图像并重新创建它 - 有时使用 JPEG 或 JPEG2000 编码。
PDF 文件通常将图像存储为单独的对象(XObject),其中包含图像的原始二进制数据。
重要的是要认识到,这通常不是 Tif、Jpg 或 Png 图像意义上的图像 – 它是像素的二进制数据、用于图像的色彩空间、有关图像的信息。创建 PDF 时会将图像拆分,不同的 PDF 创建工具可能会以非常不同的方式存储同一图像。
有时原始图像数据会调整到页面所需的大小,有时则不会(在这种情况下,它会在绘制时被放大或缩小),不同的 PDF 创建工具以非常不同的方式创建 PDF 文件。
实际像素数据可以压缩,其中一种压缩格式 (DCTDecode) 与 JPEG 中使用的相同(JPX 与 Jpeg2000 相同)。如果您保存此数据,则可以将其作为 JPEG 文件打开,但可能需要进行修改以包含色彩空间数据。
然后将该图像绘制在 PDF 内容流中...一些在眼睛看来是图像的东西也可能是由多幅图像组成,甚至根本不是图像!
所有这些意味着,如果您想从 PDF 中提取图像,您需要从所有原始数据中组装图像 - 它不会存储为您可以直接撕掉的完整图像文件。