我正在实现一些解析算法,为此我需要将 pdf 转换为 html,我选择了pdf2htmlEX为了这个目的。我想根据标题和段落解析数据。
pdf2HTMLEx 库在用户体验 (UX) 方面表现出色,但生成的 HTML 文本充满了<span>
标签<div>
,可能难以理解,因为它的可读性不强,也不包含任何标题标签等。
像这样:
1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market </div>
我的问题是:
- 我怎样才能将每个标题及其段落分开?
- 有没有办法使用 pdf2htmlEX 来做到这一点?
答案1
我尝试了同样的方法来解析银行对账单。对我来说最有效的不是将其转换为 HTML,而是将输出转换为 XML。
令人惊讶的是,您可以使用相同的命令:
pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>
不过,我使用的是标准 (Linux) 版本pdftohtml
。我不知道您使用的版本是否完全向后兼容。