我们是一个价格比较门户网站,会定期抓取某些网站。我正在寻找一种节省带宽的方法,即如果内容没有变化,则避免反复下载同一页面,而是只发出头部请求。由于我们关心的网站本质上是动态的,因此 Last-Modified 字段或 Content-Length 不是某个网页是否已更改的可靠指标。响应 Etags 字段或更好的响应 MD5 可能会正常工作。但是,大多数服务器不会为每个请求生成内容 MD5,这可能是因为这意味着每个响应都会产生一些 CPU 开销,并且会减慢它们的速度,而不是节省一些带宽,从而使它们更快。
我的问题是,是否存在一种普遍接受的方法来创建一个 HTTP 请求,提示服务器为响应生成 Etags 或 MD5 标头?
答案1
没有办法。您不能要求服务器返回任何额外内容,除非网站为此提供了特殊 API。
答案2
http 头请求?
其返回内容与 GET 相同,但没有主体。