wget -m 插入 robots.txt？

Question 1

您可以使用忽略 robots.txt 文件的选项-e robots=off。但是，如果网络服务器不是您的，则忽略 robots.txt 文件会被视为不礼貌的行为。

Answer

您可以使用忽略 robots.txt 文件的选项-e robots=off。但是，如果网络服务器不是您的，则忽略 robots.txt 文件会被视为不礼貌的行为。

Question 2

问题不在于 wget 将 robots.txt 文件插入到不该插入的位置，而在于您镜像内容的服务器。该服务器显然配置错误，无法处理类型 200 的请求，因此，当 wget 查找 wget 页面时，它会重新创建 404 请求。

不久前，我查看了 wget 源代码。我认为归根结底，wget 总是会查找 robots.txt 文件。但是，在大多数情况下，如果该文件为空，wget 会将其删除。就您而言，该文件由 wget 尝试访问时获得的 404 页面归档。

不幸的是，我不知道如何修复类型 200 HTTP 请求错误，为此，我们需要更多有关服务器的信息。

Answer

问题不在于 wget 将 robots.txt 文件插入到不该插入的位置，而在于您镜像内容的服务器。该服务器显然配置错误，无法处理类型 200 的请求，因此，当 wget 查找 wget 页面时，它会重新创建 404 请求。

不久前，我查看了 wget 源代码。我认为归根结底，wget 总是会查找 robots.txt 文件。但是，在大多数情况下，如果该文件为空，wget 会将其删除。就您而言，该文件由 wget 尝试访问时获得的 404 页面归档。

不幸的是，我不知道如何修复类型 200 HTTP 请求错误，为此，我们需要更多有关服务器的信息。

相关内容