PDF 转 HTML - 批量转换器 - 最可靠、最准确的免费和付费软件?

PDF 转 HTML - 批量转换器 - 最可靠、最准确的免费和付费软件?

我正在寻找免费或付费的(约 50 美元/40 英镑)PDF 到 HTML 转换器一些PDF 文件。

需要能够处理文件中的矢量图像和位图图像,并将两者都输出为 html 页面引用的 jpeg。

我尝试过 iorigsoft 付费 PDF 转 HTML - 问题似乎在于它挂起或只是闲置,并且它实际转换的内容有断开的链接 - 组成章节的 html 名称是错误的。

也尝试了来自 intrapdf.com 的应用程序但它在转换开始时就不断崩溃。

更新:

intrapdf 在我的 Windows XP 机器上可以运行,但在 Windows 7 机器上不行。唯一的问题在于框架索引内容 html - 页面中的图形不会显示在框架中的页面中 - 但如果您只在新选项卡中打开框架,那么您就可以看到它们。这可能只是 Chrome 浏览器的一个问题。

这个解决方案对我来说已经足够好了 - 因为我已经花了钱(在我问之前我已经花了)但我不能接受我自己的答案,因为这在 Windows 7 上不起作用。

查看了开源工具,但它们看起来同样不稳定或使用旧的 PDF 版本。

在 Windows 7 32 位家庭版上需要它。

有什么想法吗?

答案1

PDF 是一种糟糕转换的输入格式,因此“flakey”是常态。有些文件可以相对容易地转换,但大多数将要有问题。(简而言之:PDF 文件是“移动到这儿,输出这个,移动到那儿,...”的压缩列表。如果文档包含任何事物除了简单的从左到右文本(表格、图像、从右到左文本、脚注等)之外,转换可能会产生一些垃圾。

答案2

有一个基于 HTML Javascript 的 PDF 渲染器,称为 PDF.js,它使用 Canvas 元素。 http://mozilla.github.com/pdf.js/web/viewer.html

它还处于开发阶段但它可能会对某些人有用。

答案3

我会检查 openoffice/libreoffice 是否有用于转换的命令行标志。

PDF 不适合您要做的事情。PDF 所看到的页面与 HTML 所看到的页面之间存在巨大的文档模型不匹配。有些 PDF 文件无法通过任何方式轻松转换为 HTML。

答案4

相关内容