如何将 DJVU 转换为字符可识别的 PDF 文件?

如何将 DJVU 转换为字符可识别的 PDF 文件?

我有一个 DJVU 文件,我可以选择、复制、突出显示其中的文本,即 DJVU 是文本可读或字符可识别的。我想将此文件转换为字符可识别的 pdf 文件。是否有在线免费系统或免费软件可以做到这一点?

谢谢。

答案1

我使用DjVuLibre:视音频

在 DjVuLibre 中

将其转换为 pdf:文件 > 导出为… > PDF 格式

要将 pdf 文件转换为字符可识别的 pdf 文件:

您可以使用 Acrobat Pro/Standard DC 2020(直接链接 Acrobat Pro/Standard DC 2020(附带试用版)

在 Acrobat > 工具 > 扫描和 OCR > 识别文本 > 在此文件中

图片1 在此处输入图片描述

或者

您可以使用 tesseract-ocr:tesseract-ocr 下载页面我用它韋斯特/linux.这是 bash 脚本(它使用 ghostscript && tesseract)

#!/bin/bash

notify-send "started gs" && pdftoppm -r 660 *.pdf outputname -png && for i in *png; do b=`basename "$i" .png`; tesseract "$i" "$b" pdf; done && gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile=finished.pdf outputname-*.pdf && notify-send "done" && notify-send "deleting left overs" && rm *png && rm outputname-*.pdf && notify-send "cleaned"

相关内容