我想将 PDF 文档转换为显示“干净”标记的 HTML 页面集合,并生成/保留语义信息(章节、部分……),以及执行清理任务(例如,我对页码不感兴趣,或者在每一页上重复章节/文档的标题)。
有这样的程序吗?
干杯
答案1
Calibre 允许将 pdf 转换为 htlmz 格式,即包含数据的单个文件 html 页面。如果您想使用它来创建 html 页面集合,则需要先根据您的操作系统拆分 pdf。Calibre 适用于所有主流操作系统,请从http://calibre-ebook.com 导入 pdf,然后使用 ui 中的“转换书籍”选项并选择 htmlz 格式。有几个设置页面可以更改以获得最终结果
如果您想要编写脚本,还有一个命令行界面。
答案2
我写了一个,因为我的网站需要它schooletc.co.uk将数十万个 PDF 转录为语义 HTML,而不会造成混乱。
这是我的 Github 仓库https://github.com/fmalina/transcript
它是一个两步过程,首先使用 PDFtoHTML(Ex)处理 PDF,生成演示 HTML 标记,然后使用 transcript.py 处理文档,生成语义 HTML,包括标题、段落、列表和数据表。