是否可以搜索文档内容?

是否可以搜索文档内容?

我想知道是否可以在文档内容中进行搜索

  • 可能有各种类型:pdf、djvu、html、文本文件、编程代码脚本……
  • 可能在每个目录下的各个文档都混合在一起,并且可能还与其他非文档文件混合在一起?

grep 能做这些事吗?

感谢致敬!

答案1

我使用 Recoll。它位于存储库中。它还搜索 pdf 元数据。您可以选择索引哪些文件夹。它非常快。

安装:

sudo apt-get install recoll

答案2

是的。看看查找文件在 Ubuntu 的社区文档中。我曾经使用过的一个是追踪器它能够索引大多数文档类型,并且由于在后台保持索引更新,因此搜索速度非常快。

答案3

您可以对 find 命令返回的文件运行命令。

例如,使用以下命令,我列出从当前目录开始的所有文件,然后在每个文件上运行 grep 命令来搜索字符串“getUri”

find . -name '*.*' -exec grep --color 'getURI' {} +

这在我的 Ubuntu 12.04 上运行良好

无论如何,我不认为 grep 命令能够在 PDF 等二进制文档中搜索。
此外,在大型目录树上使用上述命令在计算时间方面可能非常繁重。

另一个需要考虑的方面是,您无法在光栅 PDF 中搜索字符串,在糟糕的场景中,文档管理系统逻辑文档有帮助。

相关内容