我在 Sharepoint 2007 内部网上工作,里面有 500+Gb 的文档。运行一次完整抓取需要 48 小时以上。当我们第一次设置 Sharepoint 时,它要小得多,我们每周运行一次完整抓取作业,每晚运行一次增量抓取作业。
运行完整爬网有什么好处吗?或者我应该将频率降低到每月一次 - 或者甚至比每月更少?
答案1
通常情况下,每周甚至定期进行完整爬网都是没有必要的。
根据 Microsoft 的建议 ([文章][1]),您只需要在下列情况下 (FTA) 在初始完全爬取之后手动执行完全爬取:
场中的服务器上安装了一个或多个修补程序或服务包。有关详细信息,请参阅修补程序或服务包的说明。
SSP 管理员添加了新的托管属性。
重新索引 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 网站上的 ASPX 页面。
解决连续增量爬取失败问题。在极少数情况下,如果增量爬取在存储库的任何级别连续失败一百次,索引服务器将从索引中删除受影响的内容。
已添加、删除或修改爬网规则。
修复损坏的索引。
搜索服务管理员已创建一个或多个服务器名称映射。
分配给默认内容访问帐户或爬网规则的帐户已更改。
在以下场景中(FTA),也会自动执行完全爬网(当请求增量爬网时):
SSP 管理员停止了之前的爬网。
内容数据库已从备份中恢复。
服务器场管理员已分离并重新附加内容数据库。
从未对该网站进行过全面抓取。
更改日志不包含正在爬取的地址的条目。如果更改日志中没有正在爬取的项目的条目,则无法进行增量爬取。
分配给默认内容访问帐户或爬网规则的帐户已更改。
修复损坏的索引。
HTH,丹