使用 wget 从网站递归下载文件

使用 wget 从网站递归下载文件

我想从网站下载一组文件。HTML 文档链接到

<a href="https://website.com/path/to/folder/jjxx.70" data-linktype="relative-path">bla</a>

下载主文件后,path/to/folder 会按预期被删除。剩余的行是:

<a href="jjxx.70" data-linktype="relative-path">bla</a>

但是 wget 并没有下载引用的文件,尽管我通过了镜子参数。我得到的是:

c:\>wget-1.12 -m -p -E https://website.com/path/to/folder/jjroot
... progress information ...
2018-09-15 18:52:33 (708 KB/s) - `website.com/path/to/folder/jjroot.html' saved [25784/25784]

FINISHED --2018-09-15 18:52:33--
Downloaded: 1 files, 25K in 0.04s (708 KB/s)
  • 为什么 wget 仅下载“1 个文件”?
  • 我怎样才能告诉 wget 真正地递归下载?

编辑: 因为我被问到:wget 的版本是 1.12。我也使用了 wget 1.19.4,结果相同。

答案1

命令是:

wget -r -np -l 1 -A zip http://example.com/download/

选项含义:

-r,  --recursive          specify recursive download.
-np, --no-parent          don't ascend to the parent directory.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions

您可以使用 -A 参数自定义所需的扩展

参考

https://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a-given-web-page-using-wget-curl

相关内容