使用 pdf2htmlEX 将 PDF 转换为 HTML:输出可以用于 html 解析吗?

使用 pdf2htmlEX 将 PDF 转换为 HTML:输出可以用于 html 解析吗?

我正在实现一些解析算法,为此我需要将 pdf 转换为 html,我选择了pdf2htmlEX为了这个目的。我想根据标题和段落解析数据。

pdf2HTMLEx 库在用户体验 (UX) 方面表现出色,但生成的 HTML 文本充满了<span>标签<div>,可能难以理解,因为它的可读性不强,也不包含任何标题标签等。

像这样:

1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

我的问题是:

  1. 我怎样才能将每个标题及其段落分开?
  2. 有没有办法使用 pdf2htmlEX 来做到这一点?

答案1

我尝试了同样的方法来解析银行对账单。对我来说最有效的不是将其转换为 HTML,而是将输出转换为 XML。

令人惊讶的是,您可以使用相同的命令:

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

不过,我使用的是标准 (Linux) 版本pdftohtml。我不知道您使用的版本是否完全向后兼容。

相关内容