我知道以前有人问过类似的问题,但在将其标记为重复之前,让我解释一下。
我刚.pdf
在网上买了一本电子书,想把它作为.epub
替代品。我通常使用calibre
(v1.0.0) 来完成这类任务,非常成功。这次,在转换过程中,很大一部分行似乎都乱了。
Jérôme disait aimer le rouge. Sa marotte
FRQVLVWDLW VXUWRXW ¡ O#HQOHYHU 'ªJUDIHU OD
dentelle était un geste qu'il effectuait avec la
即使你不会说法语,你也会注意到中间那一行是废话。它不仅是一行无用的代码,而且确实取代了实际内容。
calibre 电子书阅读器显示首字母pdf
乱码,而使用我的默认 pdf 阅读器显示则正常。我尝试转换为mobi
、txt
、mkd
,但没有成功。
我试过了pdftotext
,在线工具http://www.zamzar.com/并得到相同的输出。
然后我将转换pdf
为.pbm
文件并尝试运行gocr
。OCRocrad
结果非常有趣,但还不足以直接使用。
Jérôme _sȧit aimer le rouge. Sa marotte
consistait surTout à l'enlever. Dégrafer la
dentelle était un geste qu_l effectuait avec la
您是否知道还有其他工具可以帮助完成此过程或选项来微调 calibre 或 OCR 程序?
注意:我正在运行 ubuntu 13.10。