solr 查询使用默认架构将匹配的文本返回到正则表达式

2024-8-4 • tag-icon

我想在一组 Microsoft Word 文档、PDF 和 jpg、gif 等图像文件中搜索 Solr 中的服务器名称。服务器名称由正则表达式 (regex) 给出

INFP[a-zA-z0-9]{3,9}
TRKP[a-zA-z0-9]{3,9}
PLCP[a-zA-z0-9]{3,9}
SQRP[a-zA-z0-9]{3,9}
....

问题
我想获取文档中与正则表达式匹配的文本。例如 INFPWSV01、PLCPLDB01

我已使用默认模式通过 Solr/Tikka/Tesseract 对文件进行索引。

我用过高亮搜索工具 hl 勾选了 hl.usePhraseHighlighter 勾选了

Solr 仅返回包含模式的文件的元数据（大概），如文件名。
问题

我是否必须修改托管模式？
如果是这样，我必须将文件内容保存在架构中
如果是这样，这是这样做的方法：
a. solrconfig.xml <- 在我的“核心”内

<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract" startup="lazy">
<lst name="默认">
<str name="lowernames">真</str>
<str name="fmap.meta">ignored_</str>
<str name="fmap.content">_text_</str>
</lst>
...

b. 删除行

<str name="fmap.meta">ignored_</str>

因为我想要元数据
c. 将其更改为托管架构

<field name="_text_" type="text_general" multiValued="true" indexed="true" restored="false"/>

存储为“true”

curl -X POST -H'内容类型：application/json'--数据二进制'{
  “替换字段”：{
     “名称”：“_text_”，
     “类型”：“text_general”，
     “多值”：true，
     “索引”：true
     “存储”：true }
http://localhost:8983/api/cores/gettingstarted/schema

相关内容