我想在一组 Microsoft Word 文档、PDF 和 jpg、gif 等图像文件中搜索 Solr 中的服务器名称。服务器名称由正则表达式 (regex) 给出
INFP[a-zA-z0-9]{3,9} TRKP[a-zA-z0-9]{3,9} PLCP[a-zA-z0-9]{3,9} SQRP[a-zA-z0-9]{3,9} ....
问题
我想获取文档中与正则表达式匹配的文本。例如 INFPWSV01、PLCPLDB01
我已使用默认模式通过 Solr/Tikka/Tesseract 对文件进行索引。
我用过高亮搜索工具 hl 勾选了 hl.usePhraseHighlighter 勾选了
Solr 仅返回包含模式的文件的元数据(大概),如文件名。
问题
- 我是否必须修改托管模式?
- 如果是这样,我必须将文件内容保存在架构中
- 如果是这样,这是这样做的方法:
a. solrconfig.xml <- 在我的“核心”内
<requestHandler class="solr.extraction.ExtractingRequestHandler" name="/update/extract" startup="lazy"> <lst name="默认"> <str name="lowernames">真</str> <str name="fmap.meta">ignored_</str> <str name="fmap.content">_text_</str> </lst> ...
b. 删除行
<str name="fmap.meta">ignored_</str>
因为我想要元数据
c. 将其更改为托管架构
<field name="_text_" type="text_general" multiValued="true" indexed="true" restored="false"/>
存储为“true”
curl -X POST -H'内容类型:application/json'--数据二进制'{ “替换字段”:{ “名称”:“_text_”, “类型”:“text_general”, “多值”:true, “索引”:true “存储”:true } http://localhost:8983/api/cores/gettingstarted/schema