从 PDF 中提取格式化、可解析的 HTML

从 PDF 中提取格式化、可解析的 HTML

我如何从 PDF 文件中提取格式化、可解析的 HTML?(我只能找到生成难以解析的 HTML 的程序,并且很难处理方程式。)具体来说,我想分析 PDF 文件中的问题,如下所示:http://nysedregents.org/algebraone/118/algone12018-exam.pdf。有没有办法在 Windows、Linux 或 Python 中做到这一点?

答案1

不能从 PDF 文件“提取” HTML。

PDF 文件由命令组成,这些命令告诉 PDF 渲染器在何处放置字形、线条和页面上的其他图元。

另一方面,HTML 由标签和文本组成,其中标签<b>告诉 HTML 渲染器使用粗体字体等。它不会告诉渲染器在哪里来放置角色,但通常渲染器根据其他信息决定布局和位置。

现在,我们可以使用字形的位置来猜测 PDF 文件的格式,并利用这种猜测来生成 HTML,该 HTML 在呈现时可能与 PDF 文件布局略有相似。此外,如果存在必要的表格(通常存在,但也有意外情况),您还可以将字形转换为原始 unicode 字符。

这意味着任何 HTML 转换仍需靠猜测。在一定程度上这是可以接受的,但对于复杂的格式,它会失败。您总是必须手动纠正猜测。

如果您想要一份可用于此目的的工具列表:这是一个软件推荐,而不是此 stackexchange 上的主题。

相关内容