当前情况:我在 Microsoft Word 中有一个完整的文档,我需要更改一些单词的格式。例如,我目前A1
按原样输入了单词,但我需要将它们放入公式形式并将 放在下1
标中。
想法:有什么方法可以将 Word 文档导出为 HTML 之类的格式,这样格式就会被标记在纯文本文件中,并且我可以使用纯文本编辑器将其全部替换,A1
而<math>A<sub>1</sub></math>
不是像我现在这样在 Word 中逐个替换?之后,我可以重新导入 Word 并保留所有我不想更改的当前格式。
注意:以上示例只是可以编辑文件格式(如 HTML 标签)的众多示例之一docx
。问题更为普遍:如果docx
可以像在纯文本编辑器中编辑 HTML 文件一样编辑文件,格式和所有内容
答案1
有一个更简单的方法:
- 使用 Word 搜索并替换所有
A1
不太可能的字符串,例如A1@@
- 搜索并替换
1@@
,1
但也在对话框中执行以下操作:- 点击按钮“更多>>”
- 单击“格式”并选择“字体...”
- 勾选“下标”,点击确定
- 单击“全部替换”。
DOCX 格式是一种开放标准,记录在 OASIS 办公应用程序开放文档格式 (OpenDocument)。
DOCX 文件是包含在 ZIP 存档中的 XML 文件的集合。可以通过解压 Word 文档的内容来查看其内容。
该集合包含 XML 文件列表,这些文件分为以下类别:
- 元数据文件:包含有关档案中其他文件的信息,
- 文档:包含文档的实际内容。
要了解更多信息,您需要研究标准。
答案2
DOCX 是一个包含“TEXT”.XML 文件的 ZIP 文件夹。(需要使用 TAR 解压并重新打包)。
TAR -m -xf MsWord.docx & cd word & notepad document.xml
文本可以在记事本中以编程方式编辑。(这需要进行一些注册表编辑并使用宏语言文件,如 Wscript SendKeys)
所以答案是肯定的,但是为什么呢,Word 有一个比 VBS 更强大的宏编辑器和 VBA。
使用 TAR 编辑后重新打包,注意保存名称必须为 zip,然后重命名。
Tar -a -cf new.zip [content_Types].xml word\*.* docProps\*.* _rels\*.* & ren new.zip "Hello World A1 whatever.docx"