当执行递归下载时,我通过 -R 参数指定 wget 要拒绝的模式,但如果此文件是 HTML 文件,则无论文件是否与模式匹配,wget 都会下载该文件。
例如
wget -r -R "*dynamicfile*" example.com
仍会检索诸如 example.com/dynamicfile1.html 之类的文件
有没有什么办法可以防止这种情况发生?
答案1
这样做是因为 wget 使用 html 文件来了解在网页中爬行时下一步要扫描的位置。我只会让 wget 完成其工作,然后在完成后执行 rm *.html 或类似操作。
编辑:对第二个目录进行操作rsync *dynamicfile* /foo/bar
可能是过滤文件的更好方法,只保留具有正确名称的文件(假设您想保留一些具有正确名称的 html 文件)