使用 pdf2htmlEX 将 PDF 转换为 HTML：输出可以用于 html 解析吗？

Question

我尝试了同样的方法来解析银行对账单。对我来说最有效的不是将其转换为 HTML，而是将输出转换为 XML。

令人惊讶的是，您可以使用相同的命令：

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

不过，我使用的是标准 (Linux) 版本pdftohtml。我不知道您使用的版本是否完全向后兼容。

Answer 1

我尝试了同样的方法来解析银行对账单。对我来说最有效的不是将其转换为 HTML，而是将输出转换为 XML。

令人惊讶的是，您可以使用相同的命令：

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

不过，我使用的是标准 (Linux) 版本pdftohtml。我不知道您使用的版本是否完全向后兼容。

相关内容