当我https://www.wired.com/category/security/
使用wget
或下载时curl
,结果是乱码/加密的。
是否可以(如果可以,正确的方法是什么)从命令行保存该网页(未加密/纯 HTML)?
答案1
执行摘要:
看起来下载的文件是压缩的,你应该解压它。
详细解答
跑步:
wget https://www.wired.com/category/security/
index.html
下载文件的结果
file
对下载文件执行命令显示:
$ file index.html
index.html: gzip compressed data, from Unix
重命名文件并解压将其变成HTML文档
$ mv index.html index.html.gz
$ gunzip index.html.gz
$ file index.html
index.html:HTML 文档,UTF-8 Unicode 文本,行很长,带有重线
额外信息 - 为什么 wget 下载压缩文件?
正如中所解释的如何使用 GZIP 压缩优化您的网站:
现代 HTTP 服务器/客户端不使用下载大型文本文件,而是使用压缩 HTTP 响应这减少了传输文件的大小。