wget:关闭强制 .html 检索

wget:关闭强制 .html 检索

当执行递归下载时,我通过 -R 参数指定 wget 要拒绝的模式,但如果此文件是 HTML 文件,则无论文件是否与模式匹配,wget 都会下载该文件。

例如

wget -r -R "*dynamicfile*" example.com

仍会检索诸如 example.com/dynamicfile1.html 之类的文件

有没有什么办法可以防止这种情况发生?

答案1

这样做是因为 wget 使用 html 文件来了解在网页中爬行时下一步要扫描的位置。我只会让 wget 完成其工作,然后在完成后执行 rm *.html 或类似操作。

编辑:对第二个目录进行操作rsync *dynamicfile* /foo/bar可能是过滤文件的更好方法,只保留具有正确名称的文件(假设您想保留一些具有正确名称的 html 文件)

相关内容