我使用 wget (Windows) 下载网页。在一个网站上,一切都运行良好,但有些网页返回零文件。以下是我执行的命令。第一个使用 WGET 加载良好,第二个返回一个空文件
这工作正常并返回包含页面源代码的文件:
wget.exe -O pag.txt --restrict-file-names=nocontrol "http://www.goudengids.be/bedrijf/Hasselt/L2137456/Dehaese+%26+Dehaese+Advocatenkantoor/" >nul 2>nul
但是这个不起作用并返回一个空的文件 pag.txt。
wget.exe -O pag.txt --restrict-file-names=nocontrol "http://www.goudengids.be/bedrijf/L12587155/L6944363/L%C3%A9gat+%26+Joos+Advocatenkantoor/" >nul 2>nul
问题在于链接包含 %C3%A9,这是字符“é”的 UTF-8 代码
我如何下载第二个 URL?如果您直接在 Google Chrome 的地址栏中复制链接,页面即可正常加载。
提前感谢您的帮助以及来自比利时的问候
答案1
此命令对我来说PowerShell
很有效,可以下载所需的页面:
wget -O pag.txt "http://www.goudengids.be/bedrijf/L12587155/L6944363/L%C3%A9gat+%26+Joos+Advocatenkantoor/"