我想从网页下载一个目录。我正在尝试使用 wget 和 crawl,但我无法下载整个目录,因为它在网页中或以任何其他方式存在。假设网页是 abcd.com/ddd/bbb/A。在 A 里面有以 A 开头的相关信息。我的目标是下载 A 中的任何文件,即,如果可用,则递归下载 A 中的所有子文件夹。
答案1
如果所有文档都可以通过纯 HTML 链接访问,则以下操作应该有效:
wget -np -r -l0 http://abcd.com/ddd/bbb/A/
假设这A
是一个目录;如果不是,那么您应该省略尾随斜杠并接受下载所有内容bbb
。
-np
忽略父目录。-r
切换递归下载,并-l0
选择无限下载深度。后者当然是有风险的,因为有无限的符号链接循环或类似的构造。因此,插入一个合理的估计值,即到达所有所需文档所需的最大链接链可能更安全。我-l5
自己经常使用。