蜘蛛和“官方”网络机器人的 IP 地址

蜘蛛和“官方”网络机器人的 IP 地址

有没有官方的 API 来iplists.com我可以从哪里获得蜘蛛列表?

我的目的是将这些 IP 列入白名单,以便进行网站抓取。

答案1

据我所知,它并可能根据机器人操作员的判断随时改变。

Google 对此提供了一些具体的指导和解释

问题在于,如果我们的抓取工具的 IP 范围发生变化,并不是每个人都知道要检查。事实上,抓取团队几年前就迁移了 Googlebot IP,而提醒那些硬编码了 IP 范围的网站管理员确实很麻烦。

他们建议使用 DNS 检查(转发反向)来验证:

告诉网站管理员使用 DNS 逐个进行验证似乎是最好的方法。我认为推荐的技术是进行反向 DNS 查找,验证名称是否在 googlebot.com 域中,然后使用该 googlebot.com 名称进行相应的正向 DNS->IP 查找;例如:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

我认为仅进行反向 DNS 查找是不够的,因为欺骗者可以设置反向 DNS 来指向 crawl-abcd.googlebot.com。

这可能是最好的一般建议,但它有点耗费资源(DNS 查找的 CPU 周期)。

答案2

据我所知,没有“优秀”搜索引擎机器人的 IP 地址列表,而且如果有的话,它很快就会过时,正如您已经发现的那样。

有一件事你要做的就是创建一个机器人陷阱。这在理论上很简单:创建一个链接到您的网站但对普通用户隐藏的页面(例如通过 CSS 技巧),然后将Disallow其放入robots.txt。然后等一个星期因为合法搜索引擎可能会缓存robots.txt那么长时间,然后开始禁止任何进入陷阱页面的内容(例如使用 fail2ban)。

答案3

相关内容