如何在有中文的网站上使用 wget

如何在有中文的网站上使用 wget

我正在尝试使用 wget 生成动态驱动网站的静态版本。

问题是,当我在包含中文字符的网站上执行此操作时,而不是在包含整齐的中文字符的页面上,我最终得到的是乱码的 ascii 废话,但格式仍然很好。

这是我当前正在运行的命令:

wget -P 1 -mpck --user-agent="" -e robots=off --wait 1 -E http://awebsite.com

谢谢。

答案1

听起来你的意思是,如果你浏览该网站,一切都很好,但如果你下载该页面并将浏览器指向下载的文件,它就会被破坏。两个建议:

  • 检查 HTML 源代码并查看其中是否设置了编码;它可能仅设置为 HTTP 元数据。
  • 您还要下载样式表吗?请尝试此-p选项。

答案2

尝试添加--header='Accept-Language: zh'

例如。

wget -P 1 -mpck --user-agent="" -e robots=off --wait 1 -E --header='Accept-Language: zh' http://awebsite.com

如果这不起作用,请尝试使用以下命令检查 HTTP 标头中出现的“Content-Language”代码:

curl -I http://awebsite.com

相关内容