下载 URL 路径下的内容

下载 URL 路径下的内容

假设我有某些页面,例如 www.abc.def/ghi/a.html;如何使用 httrack 下载 www.abc.def/ghi 下的所有页面?(即 www.abc.def/ghi/a.html、www.abc.def/ghi/b 等)?现在,我正在使用简单命令httrack http://www.abc.def/ghi/ -O <output-folder>,但某些网站无法下载。

例如,当我尝试http://www.getsidekick.com/blog/,它不会下载任何内容。但是,如果我使用http://www.getsidekick.com/blog(请注意最后一个斜线缺失),它会下载 http://www.getsidekick.com/blog/,但同时甚至内容下 http://www.getsidekick.com/。我不知道问题可能出在哪里(也许是因为他们没有扩展.html?例如http://www.getsidekick.com/blog/ultradian-rhythm-pomodoro-technique) 并且我还没有在手册或官方论坛上找到可行的解决方案。

另外,我已经知道如何使用wget,但我想用 完成同样的事情httrack。那么,有没有标准的方法来做到这一点?

答案1

它跟踪页面上的每个链接,并且有一个返回顶层的链接。

尝试使用wget递归和无父选项。

wget -r  --no-parent http://www.getsidekick.com/blog

相关内容