我正在使用以下 wget 命令,它会下载我需要的所需文件,除了一件事......
wget -U "Mozilla/5.0" --wait=3 --load-cookies cookies.txt --timestamping --recursive --level=2 --convert-links --no-parent --page-requisites --adjust-extension --max-redirect=0 --exclude-directories=blog --reject "*per_page=18.html" --reject "*per_page=36.html" (url here)
我想下载这样的文件:
a1546997.html
但我不想下载这样的文件:
a1546997.html?pwd=&per_page=36.html
我似乎不知道如何拒绝下载最后包含额外内容的 html 页面。
主要问题是 wget 在第二种类型的链接上陷入重试并超时,因为它们不会去任何地方 - 然后 wget 客户端会被禁止。
有什么建议么?
答案1
尝试使用 wget 的 --reject-regex 开关。你可能可以这样做:
wget --recursive --no-parent --reject-regex '[^?]' url
答案2
我会采取务实的做法:
wget ....
rename 's/\.html\?.*/.html/' *.html*
这是 Perl 的重命名命令