如何使用 OpenOffice 或 LibreOffice 将 html 转换为 doc/docx?

如何使用 OpenOffice 或 LibreOffice 将 html 转换为 doc/docx?

我正在尝试将 html 转换为 doc 或 docx。我使用了一些可用的 php 类,但效果并不好。我想知道我是否可以使用 LibreOffice 或 OpenOffice 等办公软件将 html 文件转换为 doc?

LibreOffice (AbiWord) 将 html “转换”为 doc 文件,但不进行格式化。我的意思是,当我打开 doc 文件时,我会看到 html 源代码。

abiword --plugin AbiCommand
convert /home/qqq/test/test.htm /home/qqq/test/test.doc doc

使用 openOffice 时,什么也没有发生..:

soffice --headless --convert-to doc:DOC  /home/qqq/test/test.htm

我必须按 ctrl+c 才能返回控制台。

知道如何将 html 转换为 doc 吗?我可以在这两个应用程序的桌面版本中打开 html 并另存为 doc,但在控制台版本中似乎不起作用。

答案1

这是一个很晚的回复,但我希望它能够帮助一些人。

LibreOffice 使用过滤器

在下面的代码示例(例如,将 HTML 转换为 PDF)中,您会注意到次要可选参数,例如 --infilter=writerglobal8_HTML 和 :writer_web_pdf_Export:

soffice --headless --infilter=writerglobal8_HTML  --convert-to pdf:writer_web_pdf_Export --outdir /SomeFolder/Output /SomeFolder/Example.html

这些被称为“过滤器”。它相当于单个文件类型的子类别。例如,.doc 可以是 Microsoft Office 95 文档,也可以是 2003 文档。它基本上为 LibreOffice 提供了有关文件格式的线索。

有两种类型的过滤器,一个是输入过滤器(基本上是“传入文件的子格式是什么”),另一个是输出过滤器(传出的文件(IE 导出)是什么格式)。

在您的情况下,有效的 DOC 过滤器包括(包含空格的地方,您可能需要使用引号,但我经常发现引号不起作用,因此您的里程可能会有所不同):

MS WinWord 5
MS WinWord 6.0
MS Word 2003 XML      
MS Word 2007 XML      
MS Word 2007 XML Template      
MS Word 2007 XML VBA      
MS Word 95      
MS Word 95 Vorlage      
MS Word 97      
MS Word 97 Vorlage      
MS_Works      
MS_Write

您可以从(有点混乱的).ODS 工作表中找出一些文件过滤器 LibreOffice 用品这里

答案2

以下是我的做法。

在 LibreOffice Writer 中以 html 格式打开文件。

文件 -> 导出...为 ODT。

使用 LibreOffice Writer 打开 ODT 文件。

将其保存为 Docx 文件。

答案3

这可能是一个愚蠢的解决方案,或者对于我使用的 HTML 文件的某些细节来说有点愚蠢,但尝试使用.docx扩展名。我能够将它们作为“word”文件打开,然后节省将它们作为 word 文件。

相关内容