对 Unix 目录结构进行快速、逐行的全文搜索

对 Unix 目录结构进行快速、逐行的全文搜索

我正在尝试创建一个 GUI,用于搜索大量大型配置文件(约 60000 个文件,每个文件大小在 20 KB 到 50 MB 之间)。这些文件也经常更新(每天约 3 次)。

到目前为止我发现太阳能路灯狮身人面像,但找不到任何办法让它们返回匹配行的列表,包括每个匹配文档的行号。

我们当前所做的是将每个文本文件转换为 XML:

<xml>
   <line number="1">foobar</line>
   <line number="2">barfoo</line>
   ...
</xml>

并将结果存储在 eXist-db 中。但是,存储文档的速度太慢了,所以我们需要一种替代方案。

还有其他更好的想法吗?

答案1

观点:如果您需要快速访问大量易失性文本数据,则将它们转换为 XML 将使您的问题更难解决。

还有其他更好的想法吗?

将文件保留为文本并使用Lucene

(我猜这grep不行)

相关内容