wget爬取问题

Question

这是一个常见问题解答（适用于wget维基百科）：

4.4.如何让 Wget 忽略 robots.txt 文件/no-follow 属性？

默认情况下，Wget 扮演一个运行良好的网络蜘蛛的角色，并遵守站点的robots.txt文件和规则no-follow属性。

不关注

2005 年 1 月 18 日，Google 博客文章“防止垃圾评论”声明 Google 今后将尊重rel="nofollow"超链接上的属性。现在，他们的页面排名算法在对目标页面进行排名时会忽略具有此属性的链接。预期的结果是网站管理员可以修改用户发布的链接，使该属性存在，因此尝试通过在此类网站上发布链接来进行谷歌轰炸将不会导致该链接增加。

关键是维基百科已经设置了这个网站来阻止你这样做。

Answer 1

这是一个常见问题解答（适用于wget维基百科）：

4.4.如何让 Wget 忽略 robots.txt 文件/no-follow 属性？

默认情况下，Wget 扮演一个运行良好的网络蜘蛛的角色，并遵守站点的robots.txt文件和规则no-follow属性。

不关注

2005 年 1 月 18 日，Google 博客文章“防止垃圾评论”声明 Google 今后将尊重rel="nofollow"超链接上的属性。现在，他们的页面排名算法在对目标页面进行排名时会忽略具有此属性的链接。预期的结果是网站管理员可以修改用户发布的链接，使该属性存在，因此尝试通过在此类网站上发布链接来进行谷歌轰炸将不会导致该链接增加。

关键是维基百科已经设置了这个网站来阻止你这样做。

wget爬取问题

答案1

相关内容