如何告诉 wget 下载带有 url 编码名称的文件?

如何告诉 wget 下载带有 url 编码名称的文件?

wget我正在尝试使用以下命令下载整个网站:

wget --recursive --no-clobber --page-requisites --convert-links --domains example.com --no-parent  http://www.example.com/en/

它工作得很好,但有一个问题。有一些文件(主要是图像)的名称中包含这样的汉字:

http://www.example.com/path/to/首页主KV3.jpg

下载后,文件已以此名称保存:

??%96页主KV3.jpg

它在 html 页面中是这样解决的,因此会发出 404 错误:

�%2596页主KV3.jpg

我想知道如何防止这种不一致?!

答案1

我今天也为此而奋斗。

就我而言,问题出在德文字母上,例如ä,ö,ü

我通过将所有语言设置设置为 来修复此问题UTF-8

您可以在这里查看教程:

https://perlgeek.de/en/article/set-up-a-clean-utf8-environment

相关内容