我想知道是否可以在文档内容中进行搜索
- 可能有各种类型:pdf、djvu、html、文本文件、编程代码脚本……
- 可能在每个目录下的各个文档都混合在一起,并且可能还与其他非文档文件混合在一起?
grep 能做这些事吗?
感谢致敬!
答案1
我使用 Recoll。它位于存储库中。它还搜索 pdf 元数据。您可以选择索引哪些文件夹。它非常快。
安装:
sudo apt-get install recoll
答案2
答案3
您可以对 find 命令返回的文件运行命令。
例如,使用以下命令,我列出从当前目录开始的所有文件,然后在每个文件上运行 grep 命令来搜索字符串“getUri”
find . -name '*.*' -exec grep --color 'getURI' {} +
这在我的 Ubuntu 12.04 上运行良好
无论如何,我不认为 grep 命令能够在 PDF 等二进制文档中搜索。
此外,在大型目录树上使用上述命令在计算时间方面可能非常繁重。
另一个需要考虑的方面是,您无法在光栅 PDF 中搜索字符串,在糟糕的场景中,文档管理系统逻辑文档有帮助。