查看我的 Apache access.log,我发现爬虫倾向于获取旧版本的页面和文档,例如:
119.63.196.86 - - [10/Jun/2011:10:36:31 +0200] "GET /wiki/News?version=14 HTTP/1.1" 200 6073 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
我希望他们不要?version=x
在 URL 后附加后缀,这样他们只能获取最新的内容。
有没有办法通过文件robots.txt
(或者我不知道的其他机制)来做到这一点?
答案1
如果您使用开箱即用的 trac,那么这些页面上就会同时具有 NOINDEX 和 NOFOLLOW,因此它们会被抓取,但不会被编入索引。