下载 URL 路径下的内容

2024-6-6 • tag-icon

假设我有某些页面，例如 www.abc.def/ghi/a.html；如何使用 httrack 下载 www.abc.def/ghi 下的所有页面？（即 www.abc.def/ghi/a.html、www.abc.def/ghi/b 等）？现在，我正在使用简单命令httrack http://www.abc.def/ghi/ -O <output-folder>，但某些网站无法下载。

例如，当我尝试http://www.getsidekick.com/blog/，它不会下载任何内容。但是，如果我使用http://www.getsidekick.com/blog（请注意最后一个斜线缺失），它会下载 http://www.getsidekick.com/blog/，但同时甚至内容下 http://www.getsidekick.com/。我不知道问题可能出在哪里（也许是因为他们没有扩展.html？例如http://www.getsidekick.com/blog/ultradian-rhythm-pomodoro-technique) 并且我还没有在手册或官方论坛上找到可行的解决方案。

另外，我已经知道如何使用wget，但我想用完成同样的事情httrack。那么，有没有标准的方法来做到这一点？

答案1

它跟踪页面上的每个链接，并且有一个返回顶层的链接。

尝试使用wget递归和无父选项。

wget -r  --no-parent http://www.getsidekick.com/blog

答案1

相关内容