搜索引擎机器人 - 大量点击

搜索引擎机器人 - 大量点击

我已开始在每次会话开始时跟踪网站上的用户代理字符串。查看本月到目前为止的数据,我发现搜索引擎机器人不断出现。

Mozilla/5.0 (兼容; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

从 2011 年 9 月 1 日到 2011 年 9 月 13 日,我记录了来自此用户代理的 2090 次点击。从其他搜索引擎,我跟踪到的点击次数要少得多...

Mozilla/5.0 (兼容;Yahoo! Slurp;http://help.yahoo.com/help/us/ysearch/slurp) - 353

Mozilla/5.0(兼容;Googlebot/2.​​1;+http://www.google.com/bot.html) - 175

Mozilla/5.0(兼容;bingbot/2.​​0;+http://www.bing.com/bingbot.htm)-110

www.baidu.com 似乎是 Google 的中文版。有没有什么办法可以限制他们的机器人?我不介意他们给我们编入索引……事实上这可能是件好事,因为我们有大量亚洲人使用这个网站,但他们似乎做得更多。

答案1

你想限制机器人,但你似乎不知道为什么您想这样做。
您是否遇到了性能影响?流量是否超出了带宽或传输阈值?

“仅仅因为”而限制机器人是浪费精力——如果它没有伤害到你,我建议你不要管它。

如果它导致问题,你可以采取措施站点地图.xml限制机器人抓取的频率,或者robots.txt 指令限制抓取率。请注意,这两者都可以忽略,这样您只能使用(例如)Apache mod_rewrite 规则阻止用户代理 - 这也会导致您无法被索引...

答案2

我昨天对一个类似的问题写了以下回复:通过 httpd.conf 中的用户代理字符串进行阻止无效

基本上是这样的:

如果您不希望特定用户代理 (机器人) 为您编制索引,请按照 [这些] 步骤操作。如果您不希望任何机器人为您编制索引,请按照 [这些2] 步骤操作。

它使用 httpd.conf 文件,或者更简单的 .htaccess 文件并设置一些重写规则。希望这对您有用。至于限制他们可以为您编制索引的次数,您需要(像谷歌一样)证明您拥有该网站,然后进入他们的“网站管理员工具”并选择非常慢的索引率。但这是我的意见:

<2-cents>
Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data.
</2-cents>

祝你好运。

相关内容