使用 robots.txt 防止爬虫获取旧版本的 Trac 页面

使用 robots.txt 防止爬虫获取旧版本的 Trac 页面

查看我的 Apache access.log,我发现爬虫倾向于获取旧版本的页面和文档,例如:

119.63.196.86 - - [10/Jun/2011:10:36:31 +0200] "GET /wiki/News?version=14 HTTP/1.1" 200 6073 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

我希望他们不要?version=x在 URL 后附加后缀,这样他们只能获取最新的内容。

有没有办法通过文件robots.txt(或者我不知道的其他机制)来做到这一点?

答案1

如果您使用开箱即用的 trac,那么这些页面上就会同时具有 NOINDEX 和 NOFOLLOW,因此它们会被抓取,但不会被编入索引。

相关内容