如何使用 wget 或 curl 下载?

如何使用 wget 或 curl 下载?

简单wget -ccurl -O无需下载(超时!)但我在我的浏览器

http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm

那么,如何下载它终端的基本标准命令

下载时间和内容(一个大的 HTML 文件)必须和我在我的浏览器


PS:此 URL 是一个典型的“非常规代理请求”的响应与流行浏览器请求不一样的情况...但该页面是法律的官方文本,因此需要无障碍访问,需要无摩擦:是否有 RFC(或 W3C 建议,或类似建议)建议或分类什么是“HTTP 无摩擦访问”?

答案1

我尝试了很多替代方案……“最小额外标头”(服务器需要它来提供正确的内容)是User-Agent。它工作正常:

curl -O -H "User-Agent: Mozilla/5.0 (Linux)" \
   http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm 

... 这是一项官方的旧服务,并且“糟糕的 HTML”,无论是 HTML 源还是 HTTP 标头(-v选项)都不显示编码(即不是标准 UTF-8)。完整的解决方案是

curl -H "User-Agent: Mozilla/5.0 (Linux)" \
   http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm \
   | iconv -c  -t UTF-8  -f ISO-8859-1 > L10406compilada.htm

相关内容