你好,
我希望有人能帮我解决这个问题:
当我在本地服务器(MOSS 2007)上抓取源时,我收到以下错误消息:
“尝试抓取此项目时收到了无法识别的 HTTP 响应。请验证是否可以使用浏览器访问该项目。”
好吧,我使用浏览器访问该 URL 没有问题。
我还检查了KB896861,所以这也不是问题。
那么我该怎么做才能成功抓取?
谢谢!
答案1
我们在一台单机安装的测试服务器上也遇到了同样的问题。我们的机器非常慢,爬虫程序试图同时爬取太多项目,导致超时。
因此,我们创建了爬虫影响规则,该规则定义了爬虫在每次请求项目后等待的一定时间。可以在“搜索设置”(位于中央管理中)的“爬虫影响规则”下创建此类规则。
您可以在此处指定应使用该规则的 URL。此外,您还可以通过两个选项来影响爬虫:
- 设置爬虫一次请求的项目数
- 将请求的项目数设置为 1,并定义一定的时间,爬虫在请求后等待。
所以这也许也能解决你的问题。
答案2
因为在完成备用访问映射中的所有内部 URL 后,该问题已得到解决
确保您理解并添加所有带有和不带有域名 (FQDN) 的 http 和 https