使用 DjVu 压缩扫描页面的众多优点之一是它可以删除重复字符:
...双色图像压缩利用页面上几乎相同形状的重复(例如字符)来有效地压缩文本图像。
不幸的是,DjView 的 PDF 导出功能(及其命令行对应功能ddvju
)放弃了这一优势,并为每个页面渲染单个图像。结果就是 PDF 通常是 DjVu 文件的 2 倍大。
由于 PDF 格式能够存储一次图片并在一页中多次显示,因此我想知道是否有任何工具可以生成优化的 PDF,同时保留 DjVu 压缩结构。
答案1
我不知道使用 Linux 有什么方法,但使用 Windows 时,DjVuToy 程序可以完全满足您的要求。它保持各层分离,并将它们分别从 DjVu 转换为 PDF 等效文件。文件大小将保持不变,并且现在可以使用大多数 PDF 阅读器查看文档。
答案2
如果我理解正确,你的问题有点模糊,那就是你有一些 DjVu 文件想要转换为 PDF。你想要转换的 DjVu 文件是由扫描仪生成的,因此底层数据格式是位图/光栅/图片图形类型格式。
您错误地假设 PDF 格式的功能(Adobe 规格)(维基百科文章)。PDF 格式基本上是一种简单的标记语言,它描述了如何格式化和在页面上放置文本和图像、进行基本的矢量绘图,并且还能够在其中编码图片数据。文本和页面描述标记语言通常使用 LZW 或 Flate 压缩算法进行编码。图片数据存储为 JPEG(第 39 页)、TIFF(第 71 页)或 GIF(第 842 页)。
PDF 格式不使用任何新技术,如 DjVu 格式(DjVu规格)(维基百科文章) 就是这样。基本上,DjVu 会扫描整个文档并寻找可以组合在一起的内容,然后留下每个对象出现位置的引用。在这方面,DjVu 格式比 PDF 聪明得多。从某种意义上说,当您查看算法如何在整个多页文档中运行时,DjVu 格式更类似于 JPEG,而不是 PDF。
扫描仪创建的 PDF 文档只是一系列定义为特定大小的页面,每个页面都粘贴有 JPEG。您可以通过 OCR 运行 PDF 数据(光学字符识别) 过程,并以文本格式重新创建文档,这将大大减少 PDF 文档的大小。PDF 文档没有内置 OCR 格式,但某些阅读器(例如 Adobe Reader)具有内置 OCR,可让您在 JPEG 类型的 PDF 文档中进行搜索。
我还了解到Adobe Acrobat确实具有 OCR 处理能力。还有其他程序,奥米尼网页想到了,还有许多开源OCR那里的系统。