HTTP 响应 curl 和 wget 不同的结果

Question 1

您的请求中包含了无效的 HTTP 标头：

$header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

在第一行，列表以结尾,，即空内容类型，这是导致 406 的原因不能接受的错误。第二行甚至不是 HTTP 标头。

如果你使用数据包嗅探器查看 Firefox HTTP 对话，你可能会看到类似这样的内容：

Accept: text/xml,application/xml,application/xhtml+xml,
    text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5

由于第二行以空格开头，因此服务器会将它们视为单个标头。它们也必须作为一个标头传递给 curl：

$header[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

您可以使用http://echo.opera.com比较正在发送的请求。

Answer

您的请求中包含了无效的 HTTP 标头：

$header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

在第一行，列表以结尾,，即空内容类型，这是导致 406 的原因不能接受的错误。第二行甚至不是 HTTP 标头。

如果你使用数据包嗅探器查看 Firefox HTTP 对话，你可能会看到类似这样的内容：

Accept: text/xml,application/xml,application/xhtml+xml,
    text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5

由于第二行以空格开头，因此服务器会将它们视为单个标头。它们也必须作为一个标头传递给 curl：

$header[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

您可以使用http://echo.opera.com比较正在发送的请求。

Question 2

您没有Host:在数组中提供标头header[]。在对内容服务器的 HTTP 1.1 请求中，Host:标头是必需的。非 4xx 响应是您碰巧击中了某人的内容 HTTP 服务器，而对于此协议错误，该服务器是宽容的。

Answer

您没有Host:在数组中提供标头header[]。在对内容服务器的 HTTP 1.1 请求中，Host:标头是必需的。非 4xx 响应是您碰巧击中了某人的内容 HTTP 服务器，而对于此协议错误，该服务器是宽容的。

Question 3

以我的拙见，您的脚本看起来不错，并且由于您有时能获得正确的结果，所以它应该可以正常工作。

您是的所有者吗http://www.awe.co.uk/？
也许正在运行一个脚本，该脚本根据某些环境决定要做什么。例如，在您的脚本中，您以用户代理“googlebot”访问此网站，而您的 wget 用户代理将是“wget”。网络服务器上的脚本可能会检查它是否是 Google，并提供一些与您的浏览器可能看到的完全不同的内容。同样，网络服务器可能会发送不同的返回代码。
要测试此问题，您可能需要减少脚本，或扩展命令wget以发送相同的请求并比较结果。

我能想到的另一件事是：你运行脚本的频率是多少？也许 Web 服务器注意到了脚本的巨大流量，并发送了 406（或其他内容），如果你夸大其词的话 ;-)

Answer

以我的拙见，您的脚本看起来不错，并且由于您有时能获得正确的结果，所以它应该可以正常工作。

您是的所有者吗http://www.awe.co.uk/？
也许正在运行一个脚本，该脚本根据某些环境决定要做什么。例如，在您的脚本中，您以用户代理“googlebot”访问此网站，而您的 wget 用户代理将是“wget”。网络服务器上的脚本可能会检查它是否是 Google，并提供一些与您的浏览器可能看到的完全不同的内容。同样，网络服务器可能会发送不同的返回代码。
要测试此问题，您可能需要减少脚本，或扩展命令wget以发送相同的请求并比较结果。

我能想到的另一件事是：你运行脚本的频率是多少？也许 Web 服务器注意到了脚本的巨大流量，并发送了 406（或其他内容），如果你夸大其词的话 ;-)

HTTP 响应 curl 和 wget 不同的结果

答案1

答案2

答案3

相关内容