HTTP 响应 curl 和 wget 不同的结果

HTTP 响应 curl 和 wget 不同的结果

为了检查一组 URL 的 HTTP 响应标头,我使用 curl 发送了以下请求标头

foreach ( $urls as $url )
{
    // Setup headers - I used the same headers from Firefox version 2.0.0.6
    $header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
    $header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
    $header[ ] = "Cache-Control: max-age=0";
    $header[ ] = "Connection: keep-alive";
    $header[ ] = "Keep-Alive: 300";
    $header[ ] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $header[ ] = "Accept-Language: en-us,en;q=0.5";
    $header[ ] = "Pragma: "; // browsers keep this blank.

    curl_setopt( $ch, CURLOPT_URL, $url );
    curl_setopt( $ch, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.google.com/bot.html)');
    curl_setopt( $ch, CURLOPT_HTTPHEADER, $header);
    curl_setopt( $ch, CURLOPT_REFERER, 'http://www.google.com');
    curl_setopt( $ch, CURLOPT_HEADER, true );
    curl_setopt( $ch, CURLOPT_NOBODY, true );
    curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
    curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
    curl_setopt( $ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY );
    curl_setopt( $ch, CURLOPT_TIMEOUT, 10 ); //timeout 10 seconds
}

有时我会收到 200 OK,这是好的,其他时候我会收到 301、302、307,我也认为这些也很好,但有时我会收到奇怪的状态,如 406、500、504,这应该标识一个无效的 URL,但当我在浏览器上打开它时,它们都没问题

例如脚本返回

http://www.awe.co.uk/ => HTTP/1.1 406 Not Acceptable

并且 wget 返回

wget http://www.awe.co.uk/
--2011-06-23 15:26:26--  http://www.awe.co.uk/
Resolving www.awe.co.uk... 77.73.123.140
Connecting to www.awe.co.uk|77.73.123.140|:80... connected.
HTTP request sent, awaiting response... 200 OK

有人知道我缺少或者多添加了哪个请求标头吗?

答案1

您的请求中包含了无效的 HTTP 标头:

$header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

在第一行,列表以 结尾,,即空内容类型,这是导致 406 的原因不能接受的错误。第二行甚至不是 HTTP 标头。

如果你使用数据包嗅探器查看 Firefox HTTP 对话,你可能会看到类似这样的内容:

Accept: text/xml,application/xml,application/xhtml+xml,
    text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5

由于第二行以空格开头,因此服务器会将它们视为单个标头。它们也必须作为一个标头传递给 curl:

$header[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

您可以使用http://echo.opera.com比较正在发送的请求。

答案2

您没有Host:在数组中提供标头header[]。在对内容服务器的 HTTP 1.1 请求中,Host:标头是必需的。非 4xx 响应是您碰巧击中了某人的内容 HTTP 服务器,而对于此协议错误,该服务器是宽容的。

答案3

以我的拙见,您的脚本看起来不错,并且由于您有时能获得正确的结果,所以它应该可以正常工作。

您是 的所有者吗http://www.awe.co.uk/
也许正在运行一个脚本,该脚本根据某些环境决定要做什么。例如,在您的脚本中,您以用户代理“googlebot”访问此网站,而您的 wget 用户代理将是“wget”。网络服务器上的脚本可能会检查它是否是 Google,并提供一些与您的浏览器可能看到的完全不同的内容。同样,网络服务器可能会发送不同的返回代码。
要测试此问题,您可能需要减少脚本,或扩展命令wget以发送相同的请求并比较结果。

我能想到的另一件事是:你运行脚本的频率是多少?也许 Web 服务器注意到了脚本的巨大流量,并发送了 406(或其他内容),如果你夸大其词的话 ;-)

相关内容