如何将 .PDF 和 .doc/.docx 文件转换为 .HTML 文件?

如何将 .PDF 和 .doc/.docx 文件转换为 .HTML 文件?

有谁知道有什么软件(最好是开源的、Linux 或 PHP)可以将 PDF 和/或 DOC/DOCX(也许还有其他文档格式:rtf、txt 等)转换为 HTML?

我已经安装了“PDFtoHTML”软件,但它似乎不能转换 DOC/DOCX 文件。

答案1

你应该给反卷积旋转。它应该能够将 Open Office 可以读取的任何内容转换为它可以写入的任何内容。

它适用于 doc/docx 和许多其他文件。它似乎不适用于 PDF,所以我想你只能使用 2 个单独的程序来完成这项工作。

答案2

我成功地将 libreoffice 的便携版本放在我的主机的 Web 服务器上,我使用 PHP 调用它,即时执行命令行转换为 .docx 等格式。我没有主机 Web 服务器上的管理员权限。以下是我所做工作的博客文章:

关联

太棒了!使用 PHP 和 LibreOffice(OpenOffice 的后继者)直接从 .docx 或 .odt 转换为 .pdf!

答案3

你有没有尝试过PHP文档? 它允许您使用 docx 文件执行更多操作。

有一个generateXHTML 方法

相关内容