我正在尝试使用 wget 生成动态驱动网站的静态版本。
问题是,当我在包含中文字符的网站上执行此操作时,而不是在包含整齐的中文字符的页面上,我最终得到的是乱码的 ascii 废话,但格式仍然很好。
这是我当前正在运行的命令:
wget -P 1 -mpck --user-agent="" -e robots=off --wait 1 -E http://awebsite.com
谢谢。
答案1
听起来你的意思是,如果你浏览该网站,一切都很好,但如果你下载该页面并将浏览器指向下载的文件,它就会被破坏。两个建议:
- 检查 HTML 源代码并查看其中是否设置了编码;它可能仅设置为 HTTP 元数据。
- 您还要下载样式表吗?请尝试此
-p
选项。
答案2
尝试添加--header='Accept-Language: zh'
例如。
wget -P 1 -mpck --user-agent="" -e robots=off --wait 1 -E --header='Accept-Language: zh' http://awebsite.com
如果这不起作用,请尝试使用以下命令检查 HTTP 标头中出现的“Content-Language”代码:
curl -I http://awebsite.com