我正在尝试存档一个网站,但 wget 没有将一些 URL 链接到本地文件,未链接到本地文件的 URL 包含“´”和“²”,举几个例子。这两个示例的 URL 如下:
https://www.website.com/X6XNjEzNzYzX-bob%EF%BF%BDs-burgers-s10e07.html
https://www.website.com/X6XNjEzNzY4X-50-m%C2%B2-2021-s01.html
HTML 使用以下文件名保存:
X6XNjEzNzYzX-bobÂs-burgers-s10e07.html
X6XNjEzNzY4X-50-m²-2021-s01.html
但是索引文件并不链接它们,而是链接到它们的真实 URL。
这是 wget 命令:
wget.exe --tries=5 --restrict-file-names=windows --continue --timestamping --no-check-certificate --recursive --level=2 --convert-links --adjust-extension --page-requisites --trust-server-names --force-directories --user-agent="Mozilla/5.0 (Windows NT 10.0; rv:78.0) Gecko/20100101 Firefox/78.0" "https://www.website.com/?pg=1"
我怎样才能解决这个问题?
答案1
我找到了解决方法。我必须添加以下命令:
--local-encoding=UTF-8
这解决了问题。