我有一个由许多扫描页面组成的 PDF。下面显示了文本的示例片段(不必担心隐私问题,因为这是一份公开文档)。如您所见,它很难阅读。
我想运行一个程序来读取这个 PDF,确定文本,并输出一个包含文本的文件(文本文件、markdown、无后缀的 Linux 文件,甚至是另一个经过清理的 PDF,任何文件都可以),这样我自己和其他人都可以更轻松地阅读。除了适当间隔句子之类的事情之外,我不太关心格式。
我试过 pdftotext,但它输出的文件(在文本编辑器中)看起来只是一遍又一遍的“^L^L^L”。我也试过 ocrmypdf,但也没有成功(虽然我不确定我是否用对了)。问题包括图像相对“脏”,文本包含各种印刷错误、多余的空格和拼写错误的单词。您建议使用哪些其他选项(可在 Linux 上使用)来从此文档中提取文本?
答案1
输出免费OCR,使用较旧的Tesseract OCR 引擎 v. 5.1,如下所示。这是不是通过调整图像参数(例如对比度)进行优化,通过选择特定的字体(可能使用固定宽度),通过选择其中一个训练词汇文件(或通过创建一个包含特定于主题的单词(例如“Aronburg”)的新词汇文件),并且毫无疑问,随着这些变化,它会得到改进。
如果这是仅有的如果要处理的项目太多,则不值得付出努力来改进处理,但如果您有更多图像,则可以调整 OCR 设置以获得更好的结果。
埃厄
'几乎被摧毁,安哥拉自然
介绍?
a 这段对伟大战争及其结果的描述,或许是有史以来作者所写的最伟大的战争题材的作品,而且没有这么夸张的名字。战争持续了大约七年,而本书的作者花了十一年多的时间来写出这些冗长而生动的细节,为了赢得胜利,他日复一日地战斗。
虽然基督在这场漫长而血腥的战争中,尽管基督因为一个奇怪的阿伦堡之谜而遭受失败”|
任何人都无法解决这个问题,甚至我自己也无法解决,当他们在可怕的阿伦堡战役中扭转局势,战胜敌人时,他们终于取得了胜利。符文:。
虽然阿隆伯格的阴谋和阿隆伯格的孩子被谋杀一样严重,但对我的
在整个格兰德-安哥拉战争期间,三个基督教国家的联盟一直处于分裂状态,人们预测,解决阿伦堡阴谋或对她的“刺客”进行报复是唯一的希望——为了防止基督教国家赢得胜利,阿比安尼亚设法击溃了格兰德-安哥拉自己,之后,克拉维里尼亚被毁了,并且“
Gon 将会在 hor anaiose 中被消灭