尝试将带有文本层的 djvu 转换为带有文本层的 pdf。我尝试了这个帖子并且它们都没有保留文本层。
我有什么选择?
答案1
据我所知,你有两种选择:
-
sample.djvu
假设您的 DJVU 文件被调用,并且您想将第 10 页转换为 PDF(包括文本层),相关命令如下:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
pdfbeads -o pg10.pdf
使用DJView4将 DJVU 文件转换为 PDF,然后使用PDF-XChange 查看器执行 OCR。虽然耗时,但效果非常好(即使是双栏文档)。
原则上,这两个选项应该适用于 Mac、Windows 和 Linux。对于选项 2,您需要葡萄酒在 Mac 和 Linux 上。
我尝试了选项 1,但只用了一个页面,在最近配备四核处理器和 8 GB RAM 的笔记本电脑上,它无法在 10 分钟内完成。YMMV。
选项 2. 在配备四核处理器和 16 GB RAM 的最新台式计算机上花费两个小时处理一份 50 页的文档,但结果令人印象深刻。