当 PDF 文件仅包含扫描图像时，它只是 PDF 容器内的 JPG 图像吗？

Question

根据此链接，不 - PDF 会撕开图像并重新创建它 - 有时使用 JPEG 或 JPEG2000 编码。

PDF 文件通常将图像存储为单独的对象（XObject），其中包含图像的原始二进制数据。

重要的是要认识到，这通常不是 Tif、Jpg 或 Png 图像意义上的图像 – 它是像素的二进制数据、用于图像的色彩空间、有关图像的信息。创建 PDF 时会将图像拆分，不同的 PDF 创建工具可能会以非常不同的方式存储同一图像。

有时原始图像数据会调整到页面所需的大小，有时则不会（在这种情况下，它会在绘制时被放大或缩小），不同的 PDF 创建工具以非常不同的方式创建 PDF 文件。

实际像素数据可以压缩，其中一种压缩格式 (DCTDecode) 与 JPEG 中使用的相同（JPX 与 Jpeg2000 相同）。如果您保存此数据，则可以将其作为 JPEG 文件打开，但可能需要进行修改以包含色彩空间数据。

然后将该图像绘制在 PDF 内容流中...一些在眼睛看来是图像的东西也可能是由多幅图像组成，甚至根本不是图像！

所有这些意味着，如果您想从 PDF 中提取图像，您需要从所有原始数据中组装图像 - 它不会存储为您可以直接撕掉的完整图像文件。

Answer 1

根据此链接，不 - PDF 会撕开图像并重新创建它 - 有时使用 JPEG 或 JPEG2000 编码。

PDF 文件通常将图像存储为单独的对象（XObject），其中包含图像的原始二进制数据。

重要的是要认识到，这通常不是 Tif、Jpg 或 Png 图像意义上的图像 – 它是像素的二进制数据、用于图像的色彩空间、有关图像的信息。创建 PDF 时会将图像拆分，不同的 PDF 创建工具可能会以非常不同的方式存储同一图像。

有时原始图像数据会调整到页面所需的大小，有时则不会（在这种情况下，它会在绘制时被放大或缩小），不同的 PDF 创建工具以非常不同的方式创建 PDF 文件。

实际像素数据可以压缩，其中一种压缩格式 (DCTDecode) 与 JPEG 中使用的相同（JPX 与 Jpeg2000 相同）。如果您保存此数据，则可以将其作为 JPEG 文件打开，但可能需要进行修改以包含色彩空间数据。

然后将该图像绘制在 PDF 内容流中...一些在眼睛看来是图像的东西也可能是由多幅图像组成，甚至根本不是图像！

所有这些意味着，如果您想从 PDF 中提取图像，您需要从所有原始数据中组装图像 - 它不会存储为您可以直接撕掉的完整图像文件。

当 PDF 文件仅包含扫描图像时，它只是 PDF 容器内的 JPG 图像吗？

答案1

相关内容