在 ms dos 或 cygwin 下搜索 docx 文件的命令行工具

在 ms dos 或 cygwin 下搜索 docx 文件的命令行工具

是否有一个命令行工具可以.docx在 MS DOS 或 Cygwin 下搜索文件?

我已尝试过 Grep,它无法正常工作,.docx但可以正常处理.txt文件。

我知道我总是可以将转换.docx.txt第一个然后使用 Grep 搜索,但我想知道:

有没有可以在命令行下直接搜索的命令工具?

OP 编辑​​:后来我发现实现 grep 最简单的方法实际上是将这些 docx 转换为 txt,然后对它们进行 grep。

答案1

有许多库允许读取或以其他方式操作 DOCX 文件。Apache POI, 或者python-docx例如。我不知道是否已经有一个包装器可以让你 grep DOCX,但使用 POI 来做到这一点肯定不会太难(我没有使用过 python-docx。它可能仍然是一个更快的解决方案。)。

编辑:

另外,更简单的是,您可以解压缩 DOCX(因为它实际上只是一个 ZIP 文件),然后按照建议对内容进行 grep这里

答案2

我曾经为此使用过 antiword/catdoc。显然,他们已经做了一些工作来扩展功能以包括 docx 文件。:-) http://blog.kiddaland.net/2009/07/antiword-for-office-2007/

相关内容