从 PDF 中提取格式化、可解析的 HTML

Question

你不能从 PDF 文件“提取” HTML。

PDF 文件由命令组成，这些命令告诉 PDF 渲染器在何处放置字形、线条和页面上的其他图元。

另一方面，HTML 由标签和文本组成，其中标签<b>告诉 HTML 渲染器使用粗体字体等。它不会告诉渲染器在哪里来放置角色，但通常渲染器根据其他信息决定布局和位置。

现在，我们可以使用字形的位置来猜测 PDF 文件的格式，并利用这种猜测来生成 HTML，该 HTML 在呈现时可能与 PDF 文件布局略有相似。此外，如果存在必要的表格（通常存在，但也有意外情况），您还可以将字形转换为原始 unicode 字符。

这意味着任何 HTML 转换仍需靠猜测。在一定程度上这是可以接受的，但对于复杂的格式，它会失败。您总是必须手动纠正猜测。

如果您想要一份可用于此目的的工具列表：这是一个软件推荐，而不是此 stackexchange 上的主题。

Answer 1

你不能从 PDF 文件“提取” HTML。

PDF 文件由命令组成，这些命令告诉 PDF 渲染器在何处放置字形、线条和页面上的其他图元。

另一方面，HTML 由标签和文本组成，其中标签<b>告诉 HTML 渲染器使用粗体字体等。它不会告诉渲染器在哪里来放置角色，但通常渲染器根据其他信息决定布局和位置。

现在，我们可以使用字形的位置来猜测 PDF 文件的格式，并利用这种猜测来生成 HTML，该 HTML 在呈现时可能与 PDF 文件布局略有相似。此外，如果存在必要的表格（通常存在，但也有意外情况），您还可以将字形转换为原始 unicode 字符。

这意味着任何 HTML 转换仍需靠猜测。在一定程度上这是可以接受的，但对于复杂的格式，它会失败。您总是必须手动纠正猜测。

如果您想要一份可用于此目的的工具列表：这是一个软件推荐，而不是此 stackexchange 上的主题。

相关内容