使用 robots.txt 防止爬虫获取旧版本的 Trac 页面

2024-5-28 • tag-icon

查看我的 Apache access.log，我发现爬虫倾向于获取旧版本的页面和文档，例如：

119.63.196.86 - - [10/Jun/2011:10:36:31 +0200] "GET /wiki/News?version=14 HTTP/1.1" 200 6073 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

我希望他们不要?version=x在 URL 后附加后缀，这样他们只能获取最新的内容。

有没有办法通过文件robots.txt（或者我不知道的其他机制）来做到这一点？

答案1

如果您使用开箱即用的 trac，那么这些页面上就会同时具有 NOINDEX 和 NOFOLLOW，因此它们会被抓取，但不会被编入索引。

答案1

相关内容