wget 和curl 将网页保存为乱码(加密?)

wget 和curl 将网页保存为乱码(加密?)

当我https://www.wired.com/category/security/使用wget或下载时curl,结果是乱码/加密的。

是否可以(如果可以,正确的方法是什么)从命令行保存该网页(未加密/纯 HTML)?

答案1

执行摘要:

看起来下载的文件是压缩的,你应该解压它。

详细解答

跑步:

wget https://www.wired.com/category/security/

index.html下载文件的结果

file对下载文件执行命令显示:

$ file index.html 
index.html: gzip compressed data, from Unix

重命名文件并解压将其变成HTML文档

$ mv index.html index.html.gz
$ gunzip index.html.gz 
$ file index.html 

index.html:HTML 文档,UTF-8 Unicode 文本,行很长,带有重线

额外信息 - 为什么 wget 下载压缩文件?

正如中所解释的如何使用 GZIP 压缩优化您的网站

现代 HTTP 服务器/客户端不使用下载大型文本文件,而是使用压缩 HTTP 响应这减少了传输文件的大小。

相关内容