wget - 如何拒绝下载 html 页面的字符串

wget - 如何拒绝下载 html 页面的字符串

我正在使用以下 wget 命令,它会下载我需要的所需文件,除了一件事......

wget -U "Mozilla/5.0" --wait=3 --load-cookies cookies.txt --timestamping --recursive --level=2 --convert-links --no-parent --page-requisites --adjust-extension --max-redirect=0 --exclude-directories=blog --reject "*per_page=18.html" --reject "*per_page=36.html" (url here)

我想下载这样的文件:

a1546997.html

但我不想下载这样的文件:

a1546997.html?pwd=&per_page=36.html

我似乎不知道如何拒绝下载最后包含额外内容的 html 页面。

主要问题是 wget 在第二种类型的链接上陷入重试并超时,因为它们不会去任何地方 - 然后 wget 客户端会被禁止。

有什么建议么?

答案1

尝试使用 wget 的 --reject-regex 开关。你可能可以这样做:

wget --recursive --no-parent --reject-regex '[^?]' url

答案2

我会采取务实的做法:

wget ....
rename 's/\.html\?.*/.html/' *.html*

这是 Perl 的重命名命令

相关内容