问题

Question

我认为尺寸差异与 ABBY 使用一些商业魔法来智能地进行图像压缩有关

不要假设，要调查。 PDF 格式为有据可查，阅读详细信息。在编辑器中打开 PDF 文件（或仅使用less），查看页面的实际编码方式，并找出差异。或者安装一个类似于命令行工具的包mutools，可以提取 PDF 文件的部分内容。

PDF 中的图像将占用不同的空间量，具体取决于其存储的分辨率（可能与扫描时使用的分辨率相同或不同）和压缩算法。

标准压缩按照标准是方法是

以及一些可能不适用的内容。

因此，找出 ABBY 使用的分辨率和压缩方法，然后尝试找到工具来重现该方法（如果现有工具不能立即执行此操作，您可能需要修改现有工具）。

据我了解，这意味着 ABBY 使用带有 Mask 功能的 JPXDecode 过滤器来对图像进行编码，这意味着我正在寻找可以进行 JPXDecode (JPG2000?) 压缩的 linux/FOSS 替代方案。

确切地。请注意，JPG 可能不是是文本的最佳压缩方法，因为它面向照片，这意味着它无法很好地呈现文本典型的尖锐过渡。另一方面，由于这些是扫描，因此扫描时过渡可能已经本质上模糊了。

另请注意，JPG 有相当多的参数会影响压缩比与质量。

因此，在这种情况下，请使用mutools提取一些图像，使用其他工具（例如mediainfo或identify -verbose来自 ImageMagick/GraphicsMagick）来找出 JPG 图像的参数。

还有一个非常在高倍率下仔细观察解压缩的 JPG 图像，并确定质量是否足够好。

应该有很多开源工具可以根据所需的分辨率和质量从扫描图像创建 JPG 文件，但我不知道有什么工具可以将它们打包成 PDF。

Answer 1