当我访问这通过我的 Firefox 13 访问网站,我得到了一个包含一些内容的页面。但是当我使用 wget 下载它时:
wget http://tinhvan.com
我在下载的 HTML 页面上获得了其他内容。尝试设置用户代理:
wget -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com
但结果是一样的。
发生了什么?以及如何获得与通过 Firefox 访问时相同的结果?
提前感谢您提供的任何帮助。
更新
以下是来自 Firefox => 查看源代码:
<!DOCTYPE html>
<html dir="ltr" lang="vi">
<head id="ctl00_page_header">
<title>
Tinhvan Group - Trang chủ
这里是通过 wget 下载的
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><link href="Content/images/main.css" rel="stylesheet" type="text/css" /><link href="Content/images/mail-detail.css" rel="stylesheet" type="text/css" />
<script src="../../Content/JqueryUI/js/jquery-1.3.2.min.js" type="text/javascript"></script>
<title>
Trang chủ - Tinhvan Group Website
答案1
尝试使用 CURL
curl www.webpage.com --location
如果提供,它将转到重定向页面。
您也可以尝试
curl -I www.webpage.com
curl -I --location www.webpage.com
并粘贴到这里,这样我们就会知道返回了什么标题。
我确实检查过了:
wget -S --header "User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11" --header "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" --header "Accept-Encoding: gzip,deflate,sdch" --header "Accept-Language: en-US,en;q=0.8" --header "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3" tinhvan.com
但还没有运气..
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Cache-Control: private
Content-Type: text/html; charset=utf-8
Expires: Tue, 31 Jul 2012 10:08:38 GMT
Server: Microsoft-IIS/7.0
Set-Cookie: .ASPXANONYMOUS=0EsBS5alzQEkAAAAZjllMGZmMDMtMTQ3Zi00ZDZlLWJiYWUtZGJhNDlhZjY1NWZmhWyvGlE9QG7-yO6wBOECE3K4rkA1; expires=Mon, 08-Oct-2012 20:48:38 GMT; path=/; HttpOnly
X-AspNetMvc-Version: 1.0
X-AspNet-Version: 2.0.50727
X-Powered-By: ASP.NET
Date: Tue, 31 Jul 2012 10:08:38 GMT
Connection: keep-alive
Content-Length: 9874
Length: 9874 (9.6K) [text/html]
正在加载的 js 可能正在执行某种静默重定向,从而改变页面源代码。wget / curl 不支持 javascript - 这就是内容不同的原因。
wget下载的TCPDUMP记录:
由于太渴望直接粘贴,所以我将其放在这里:点击
以供进一步分析。