我需要将 Word 文档转换为易于解析的格式,因此我选择了 XML。我找到了一个工具它可以工作,但它没有告诉我文本是哪种字体,这是我的主要解析方法。是否有任何工具可以保存此信息或提供代码的教程链接?
答案1
Word 2012(以及通过插件的 Word 2007)可以将 Word 文档存储在 WordML(.docx)中,是一种 xml 格式。
这种格式很容易解析——有几种语言的库,有些,如.NET,有内置的解析功能。
答案2
您需要一份附带的 XSL 文档,这应该会有所帮助: http://webdesign.about.com/cs/xslinformation/a/aa051198.htm