大约十天前,我将一个网站(主要是 Joomla 论坛)移至了不同 IP 地址的新服务器。在短暂的计划停机期间,我复制了内容并像往常一样完成了 DNS 切换(通过 Cloudflare),大多数流量都随之而来 - 所有真实用户都可以从新位置访问该网站,并且似乎大多数网络爬虫请求都已完成。
但是,仍有网络爬虫试图通过旧 IP 访问我的网站。我的意思是,具体通过 IP 地址 - 尽管它们试图爬取现在存在于新服务器上的有效路径。这主要是 GoogleBot,但我也看到零星的 BingBot 或 Yahoo Slurp 条目。Apache 日志显示旧服务器上每分钟有 1-2 次访问。
然而,这三个机器人的大部分爬行工作都是在新服务器上进行的。
我已经从旧服务器中删除了内容,因此这些请求会遇到 404 错误。爬虫程序是否有通过服务器 IP 进行索引的惯例?
有没有办法让他们浏览新网站?我是否应该主动尝试使用自定义 HTTP 错误代码重定向他们?
答案1
这些爬虫的 DNS 缓存刷新可能需要很长时间,但 10 天对我来说似乎有点太长了。另一方面,你说他们通过 IP 访问你的网站,这肯定是错误的。老实说,这听起来更像是某个地方的链接不好,而且你的网络服务器没有将 IP 地址重定向到实际的 FQDN URL,然后爬虫继续浏览网站自己的相关链接(但这只是一种假设)。
我不会费心使用重定向,除非你打算长期运行这个旧服务器来做这件事。例如,我们在一年前就强制实施了 SSL(使用 301 重定向),但我们仍然通过纯 HTTP 收到大量请求。而且它们是指向特定资产(如下载)的直接链接,因此并不是他们在输入主地址时没有指定 https://。只要你继续提供服务,他们就会继续使用它。
如果这些相同的机器人也爬取你的新服务器,我真的不会介意。这是我的一点看法。