是否有一个命令行工具可以.docx
在 MS DOS 或 Cygwin 下搜索文件?
我已尝试过 Grep,它无法正常工作,.docx
但可以正常处理.txt
文件。
我知道我总是可以将转换.docx
为.txt
第一个然后使用 Grep 搜索,但我想知道:
有没有可以在命令行下直接搜索的命令工具?
OP 编辑:后来我发现实现 grep 最简单的方法实际上是将这些 docx 转换为 txt,然后对它们进行 grep。
答案1
有许多库允许读取或以其他方式操作 DOCX 文件。Apache POI, 或者python-docx例如。我不知道是否已经有一个包装器可以让你 grep DOCX,但使用 POI 来做到这一点肯定不会太难(我没有使用过 python-docx。它可能仍然是一个更快的解决方案。)。
编辑:
另外,更简单的是,您可以解压缩 DOCX(因为它实际上只是一个 ZIP 文件),然后按照建议对内容进行 grep这里。
答案2
我曾经为此使用过 antiword/catdoc。显然,他们已经做了一些工作来扩展功能以包括 docx 文件。:-) http://blog.kiddaland.net/2009/07/antiword-for-office-2007/