尝试抓取旧多站点的机器人会产生数千个 robots.txt 404 错误

Question 1

当执行您正在执行的重定向时，只有一个适用的 HTTP 响应代码，即301 Moved Permanently。RFC 2616定义 HTTP 协议的标准对 301 响应代码的定义如下（重点是我加上的）：

请求的资源已被分配了一个新的永久 URI以及任何将来对此资源的引用应该使用返回的 URI 之一。具有链接编辑功能的客户端应该自动将对请求 URI 的引用重新链接到一个或多个新引用由服务器返回（如果可能）。此响应可缓存除非另有说明。

新的永久 URI 应由响应中的 Location 字段提供。除非请求方法是 HEAD，否则响应实体应包含一个简短的超文本注释，其中包含指向新 URI 的超链接。

如果响应除 GET 或 HEAD 之外的请求而收到 301 状态代码，则用户代理不得自动重定向请求，除非用户可以确认，因为这可能会改变发出请求的条件。

将其与 HTTP302 Found重定向进行对比，HTTP 重定向通常在简单配置“重定向”时使用，其定义为（再次强调）：

请求的资源位于暂时地在不同 URI 下。由于重定向可能会偶尔发生改变，客户端应该继续使用 Request-URI 进行将来的请求。此回复仅当指示时才可缓存通过 Cache-Control 或 Expires 标头字段。

临时 URI 应由响应中的 Location 字段提供。除非请求方法是 HEAD，否则响应实体应包含一个简短的超文本注释，其中包含指向新 URI 的超链接。

如果响应除 GET 或 HEAD 之外的请求而收到 302 状态代码，则用户代理不得自动重定向请求，除非用户可以确认，因为这可能会改变发出请求的条件。

因此，在您的场景中执行 HTTP 重定向的正确方法是配置 Web 服务器以返回301响应指示新位置，而不是302响应。然后，有能力的客户端将存储新的 URL 并将其用于任何未来的请求。

Answer

当执行您正在执行的重定向时，只有一个适用的 HTTP 响应代码，即301 Moved Permanently。RFC 2616定义 HTTP 协议的标准对 301 响应代码的定义如下（重点是我加上的）：

请求的资源已被分配了一个新的永久 URI以及任何将来对此资源的引用应该使用返回的 URI 之一。具有链接编辑功能的客户端应该自动将对请求 URI 的引用重新链接到一个或多个新引用由服务器返回（如果可能）。此响应可缓存除非另有说明。

新的永久 URI 应由响应中的 Location 字段提供。除非请求方法是 HEAD，否则响应实体应包含一个简短的超文本注释，其中包含指向新 URI 的超链接。

如果响应除 GET 或 HEAD 之外的请求而收到 301 状态代码，则用户代理不得自动重定向请求，除非用户可以确认，因为这可能会改变发出请求的条件。

将其与 HTTP302 Found重定向进行对比，HTTP 重定向通常在简单配置“重定向”时使用，其定义为（再次强调）：

请求的资源位于暂时地在不同 URI 下。由于重定向可能会偶尔发生改变，客户端应该继续使用 Request-URI 进行将来的请求。此回复仅当指示时才可缓存通过 Cache-Control 或 Expires 标头字段。

临时 URI 应由响应中的 Location 字段提供。除非请求方法是 HEAD，否则响应实体应包含一个简短的超文本注释，其中包含指向新 URI 的超链接。

如果响应除 GET 或 HEAD 之外的请求而收到 302 状态代码，则用户代理不得自动重定向请求，除非用户可以确认，因为这可能会改变发出请求的条件。

因此，在您的场景中执行 HTTP 重定向的正确方法是配置 Web 服务器以返回301响应指示新位置，而不是302响应。然后，有能力的客户端将存储新的 URL 并将其用于任何未来的请求。

Question 2

我认为最好不要重定向请求，/robots.txt同时仍然重定向其他所有内容。如果旧网站曾经有一个/robots.txt文件，您可能应该保留它。否则，一个空文件就可以了。但您也可以决定是时候进行一些清理，并将/robots.txt文件放在旧域上，这些域不允许抓取在合并期间或之后被删除的页面。

Answer

我认为最好不要重定向请求，/robots.txt同时仍然重定向其他所有内容。如果旧网站曾经有一个/robots.txt文件，您可能应该保留它。否则，一个空文件就可以了。但您也可以决定是时候进行一些清理，并将/robots.txt文件放在旧域上，这些域不允许抓取在合并期间或之后被删除的页面。

尝试抓取旧多站点的机器人会产生数千个 robots.txt 404 错误

答案1

答案2

相关内容