使用递归 wget 时如何获取未压缩的内容?

使用递归 wget 时如何获取未压缩的内容?

我正在通过 wget 下载许多包含所有静态内容(js、css、imgs……)的单页递归。结果显示,wget 提供的压缩内容(gzip)存储在压缩形式。但我想要未压缩的形式。很难想象编写另一个脚本来递归遍历目录并尝试解压可能的内容。那么有什么方法可以解压它吗?

命令:

wget -E -H -k -K -phttps://some.example

甚至 --header='Accept-Encoding: '(告诉服务器不要使用 gzip)也无济于事。

谢谢你的建议:)

答案1

  1. 使用 httrack 而不是 wget
  2. 设置解压代理。Squid 带有一些第三方插件应该可以做到这一点。我更熟悉 Java,所以我使用了 LittleProxy,覆盖了 getMaximumResponseBufferSizeInBytes() 方法,就这样。我写了后面的内容这里

编辑:Wget 1.19.2 引入Add gzip Content-Encoding decompression(并且有效)

相关内容