我有一个 DJVU 文件,我可以选择、复制、突出显示其中的文本,即 DJVU 是文本可读或字符可识别的。我想将此文件转换为字符可识别的 pdf 文件。是否有在线免费系统或免费软件可以做到这一点?
谢谢。
答案1
我使用DjVuLibre:视音频
在 DjVuLibre 中
将其转换为 pdf:文件 > 导出为… > PDF 格式
要将 pdf 文件转换为字符可识别的 pdf 文件:
您可以使用 Acrobat Pro/Standard DC 2020(直接链接 Acrobat Pro/Standard DC 2020(附带试用版)
在 Acrobat > 工具 > 扫描和 OCR > 识别文本 > 在此文件中
或者
您可以使用 tesseract-ocr:tesseract-ocr 下载页面我用它韋斯特/linux.这是 bash 脚本(它使用 ghostscript && tesseract)
#!/bin/bash
notify-send "started gs" && pdftoppm -r 660 *.pdf outputname -png && for i in *png; do b=`basename "$i" .png`; tesseract "$i" "$b" pdf; done && gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dAutoRotatePages=/None -sOutputFile=finished.pdf outputname-*.pdf && notify-send "done" && notify-send "deleting left overs" && rm *png && rm outputname-*.pdf && notify-send "cleaned"