将 Word 文档转换为 XML 格式,同时保留字体信息

将 Word 文档转换为 XML 格式,同时保留字体信息

我需要将 Word 文档转换为易于解析的格式,因此我选择了 XML。我找到了一个工具它可以工作,但它没有告诉我文本是哪种字体,这是我的主要解析方法。是否有任何工具可以保存此信息或提供代码的教程链接?

答案1

Word 2012(以及通过插件的 Word 2007)可以将 Word 文档存储在 WordML(.docx)中,是一种 xml 格式。

这种格式很容易解析——有几种语言的库,有些,如.NET,有内置的解析功能。

答案2

您需要一份附带的 XSL 文档,这应该会有所帮助: http://webdesign.about.com/cs/xslinformation/a/aa051198.htm

相关内容