我知道爬取用于更新索引,以便快速在 SharePoint 上进行搜索。但我不明白为什么首先需要爬取!
每当更新、添加或更改页面时,为什么索引不会立即更新?这意味着索引会立即更新,您无需运行“爬取”。那不是更容易吗?
也许我忽略了这里的全局,所以任何见解都很有用。
答案1
抓取和索引编制密切相关。网页搜索中的抓取是指您跟踪页面上的所有链接以查找其链接到的所有其他页面。长期以来,这一直是描述网页搜索引擎收集页面方式的标准方式。一旦抓取收集到一组页面,索引编制过程就会开始从这些页面收集有助于检索的数据。用户的查询利用索引快速返回相关页面。
SharePoint 2013 添加了一个名为“持续抓取”的新选项,以帮助减少抓取延迟。请记住,所有这些搜索过程(抓取、索引和查询)都非常耗费资源。可以通过使用更多更大的服务器并将其添加到搜索场中来减少延迟。
参考
- 网络搜索引擎的工作原理维基百科
- SharePoint 持续爬取和增量爬取之间的区别sharepoint.stackexchange.com
答案2
爬网组件将帮助您从内容源中看到/配置/引用的不同项目中获取属性(不一定只是 SharePoint 网站,也可以是外部网站/链接/人员等),它将生成将为内容处理组件提供信息的爬网属性。为什么?因为这将代表您可以根据业务需求进行更改的搜索架构。我的意思是,您可以将额外的属性(例如属性(如作者)的优先级)设置为托管属性(如果从 SA 管理页面打开搜索架构,则可以看到完整列表)在更新或不更新使用内容处理步骤的搜索架构后,数据将写入索引文件(不一定位于 c:\ 驱动器中),这样做将帮助您获得比直接从网站填充更准确的索引。
希望这能有所帮助:)