语义 PDF 到 HTML 的转换

Question 1

Calibre 允许将 pdf 转换为 htlmz 格式，即包含数据的单个文件 html 页面。如果您想使用它来创建 html 页面集合，则需要先根据您的操作系统拆分 pdf。Calibre 适用于所有主流操作系统，请从http://calibre-ebook.com 导入 pdf，然后使用 ui 中的“转换书籍”选项并选择 htmlz 格式。有几个设置页面可以更改以获得最终结果

如果您想要编写脚本，还有一个命令行界面。

Answer

Calibre 允许将 pdf 转换为 htlmz 格式，即包含数据的单个文件 html 页面。如果您想使用它来创建 html 页面集合，则需要先根据您的操作系统拆分 pdf。Calibre 适用于所有主流操作系统，请从http://calibre-ebook.com 导入 pdf，然后使用 ui 中的“转换书籍”选项并选择 htmlz 格式。有几个设置页面可以更改以获得最终结果

如果您想要编写脚本，还有一个命令行界面。

Question 2

我写了一个，因为我的网站需要它schooletc.co.uk将数十万个 PDF 转录为语义 HTML，而不会造成混乱。

这是我的 Github 仓库https://github.com/fmalina/transcript

它是一个两步过程，首先使用 PDFtoHTML（Ex）处理 PDF，生成演示 HTML 标记，然后使用 transcript.py 处理文档，生成语义 HTML，包括标题、段落、列表和数据表。

Answer

我写了一个，因为我的网站需要它schooletc.co.uk将数十万个 PDF 转录为语义 HTML，而不会造成混乱。

这是我的 Github 仓库https://github.com/fmalina/transcript

它是一个两步过程，首先使用 PDFtoHTML（Ex）处理 PDF，生成演示 HTML 标记，然后使用 transcript.py 处理文档，生成语义 HTML，包括标题、段落、列表和数据表。

语义 PDF 到 HTML 的转换

答案1

答案2

相关内容