使用 wget 获取包含日文字符的链接将导致 404

使用 wget 获取包含日文字符的链接将导致 404

我在一个网站上使用了 wget,所有文件都下载了,没有错误。具有以下类型链接的页面:

  • website.com/english/apple
  • website.com/english/dog
  • website.com/english/baby

已下载并正常运行。但是其他文件带有链接:

  • website.com/japanese/おと
  • website.com/japanese/ょうき

已下载,并且它们都具有来自站点的默认 404 响应页面。(它并没有真正说 404,它只是说“你输入了错误的链接”)

我尝试使用命令“--restrict-file-names=ascii”,但发生了同样的事情。

注意:使用该命令后,下载的文件的 utf-8 代码错误。(其中一个是 %C3%A5%C2%A4%E2%80%A2,解码时会出现乱码)

我做了一些搜索,有人提到:”

“wget url 编码字节 128-159(在某些 8 位编码中是控制字符)。这是错误的”

这和我的问题有关吗?

答案1

我在一个随机的日本博客上找到了一个解决方案。在谷歌的第二页找到了它!!

只需添加--local-encoding=UTF-8

我使用过并且起作用的完整命令是:

wget -m -np -c -R "index.html*" --restrict-file-names=ascii --local-encoding=UTF-8 "https://www.website.com/"

相关内容