由文本图像组成的 PDF - 如何转换为文本文件?

由文本图像组成的 PDF - 如何转换为文本文件?

我有一个由许多扫描页面组成的 PDF。下面显示了文本的示例片段(不必担心隐私问题,因为这是一份公开文档)。如您所见,它很难阅读。

PDF 示例

我想运行一个程序来读取这个 PDF,确定文本,并输出一个包含文本的文件(文本文件、markdown、无后缀的 Linux 文件,甚至是另一个经过清理的 PDF,任何文件都可以),这样我自己和其他人都可以更轻松地阅读。除了适当间隔句子之类的事情之外,我不太关心格式。

我试过 pdftotext,但它输出的文件(在文本编辑器中)看起来只是一遍又一遍的“^L^L^L”。我也试过 ocrmypdf,但也没有成功(虽然我不确定我是否用对了)。问题包括图像相对“脏”,文本包含各种印刷错误、多余的空格和拼写错误的单词。您建议使用哪些其他选项(可在 Linux 上使用)来从此文档中提取文本?

答案1

输出免费OCR,使用较旧的Tesseract OCR 引擎 v. 5.1,如下所示。这是不是通过调整图像参数(例如对比度)进行优化,通过选择特定的字体(可能使用固定宽度),通过选择其中一个训练词汇文件(或通过创建一个包含特定于主题的单词(例如“Aronburg”)的新词汇文件),并且毫无疑问,随着这些变化,它会得到改进。

如果这是仅有的如果要处理的项目太多,则不值得付出努力来改进处理,但如果您有更多图像,则可以调整 OCR 设置以获得更好的结果。

埃厄

'几乎被摧毁,安哥拉自然

介绍?

a 这段对伟大战争及其结果的描述,或许是有史以来作者所写的最伟大的战争题材的作品,而且没有这么夸张的名字。战争持续了大约七年,而本书的作者花了十一年多的时间来写出这些冗长而生动的细节,为了赢得胜利,他日复一日地战斗。

虽然基督在这场漫长而血腥的战争中,尽管基督因为一个奇怪的阿伦堡之谜而遭受失败”|

任何人都无法解决这个问题,甚至我自己也无法解决,当他们在可怕的阿伦堡战役中扭转局势,战胜敌人时,他们终于取得了胜利。符文:。

虽然阿隆伯格的阴谋和阿隆伯格的孩子被谋杀一样严重,但对我的

在整个格兰德-安哥拉战争期间,三个基督教国家的联盟一直处于分裂状态,人们预测,解决阿伦堡阴谋或对她的“刺客”进行报复是唯一的希望——为了防止基督教国家赢得胜利,阿比安尼亚设法击溃了格兰德-安哥拉自己,之后,克拉维里尼亚被毁了,并且“

Gon 将会在 hor anaiose 中被消灭

答案2

这是针对单人的,可能至少需要四年零七个月,或者运气好的话只需要十一年。最好的解决方案是看看是否有可能让众人代写这部“经典作品”(或者求助于 Google 慈善分会),但你需要制定基本规则,比如拼写错误是否应该保留?

在此处输入图片描述

只有早期的页面是打字的,很多后面的页面都是单色的,因此需要再次以灰度扫描才有机会进行 OCR 或人工转录。 在此处输入图片描述

相关内容