wget
我正在尝试使用以下命令下载整个网站:
wget --recursive --no-clobber --page-requisites --convert-links --domains example.com --no-parent http://www.example.com/en/
它工作得很好,但有一个问题。有一些文件(主要是图像)的名称中包含这样的汉字:
下载后,文件已以此名称保存:
??%96页主KV3.jpg
它在 html 页面中是这样解决的,因此会发出 404 错误:
�%2596页主KV3.jpg
我想知道如何防止这种不一致?!
答案1
我今天也为此而奋斗。
就我而言,问题出在德文字母上,例如ä,ö,ü
我通过将所有语言设置设置为 来修复此问题UTF-8
。
您可以在这里查看教程:
https://perlgeek.de/en/article/set-up-a-clean-utf8-environment