我想从网站下载一组文件。HTML 文档链接到
<a href="https://website.com/path/to/folder/jjxx.70" data-linktype="relative-path">bla</a>
下载主文件后,path/to/folder 会按预期被删除。剩余的行是:
<a href="jjxx.70" data-linktype="relative-path">bla</a>
但是 wget 并没有下载引用的文件,尽管我通过了镜子参数。我得到的是:
c:\>wget-1.12 -m -p -E https://website.com/path/to/folder/jjroot
... progress information ...
2018-09-15 18:52:33 (708 KB/s) - `website.com/path/to/folder/jjroot.html' saved [25784/25784]
FINISHED --2018-09-15 18:52:33--
Downloaded: 1 files, 25K in 0.04s (708 KB/s)
- 为什么 wget 仅下载“1 个文件”?
- 我怎样才能告诉 wget 真正地递归下载?
编辑: 因为我被问到:wget 的版本是 1.12。我也使用了 wget 1.19.4,结果相同。
答案1
命令是:
wget -r -np -l 1 -A zip http://example.com/download/
选项含义:
-r, --recursive specify recursive download.
-np, --no-parent don't ascend to the parent directory.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions
您可以使用 -A 参数自定义所需的扩展
参考
https://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a-given-web-page-using-wget-curl