我想从一堆word文档中撕下标题。我尝试过的所有将 .doc 转换为文本的 CLI 工具都会丢失标题...但 Abiword 转换为 RTF 会保留它,例如:
$ abiword --to=rtf something.doc
给出一些东西.rtf,包含标题的文本编码文件。
到目前为止一切顺利,但我需要文件的一行,写它似乎非常浪费。 (例如,如果我可以将输出发送到 stdout,我将使用 Python 的子进程运行它,捕获它并应用正则表达式来获取标题列表)。
但是,除非我遗漏了什么,否则 Abiword CLI 工具似乎没有设置为输出到标准输出。您可以:
- 指定输出格式,给出原始文件名+新扩展名,或者
- 指定文件名;Abiword 根据扩展名推断文件类型。
有没有办法解决这个问题,并通过 stdout 获取输出?
答案1
手册页中有一个示例abiword
:
abiword --to=rtf --to-name=fd://1 something.doc
答案2
-o 无需“=”即可工作,例如:
abiword --to=rtf -o fd://1 some.doc