假设我有某些页面,例如 www.abc.def/ghi/a.html;如何使用 httrack 下载 www.abc.def/ghi 下的所有页面?(即 www.abc.def/ghi/a.html、www.abc.def/ghi/b 等)?现在,我正在使用简单命令httrack http://www.abc.def/ghi/ -O <output-folder>
,但某些网站无法下载。
例如,当我尝试http://www.getsidekick.com/blog/,它不会下载任何内容。但是,如果我使用http://www.getsidekick.com/blog(请注意最后一个斜线缺失),它会下载
http://www.getsidekick.com/blog/,但同时甚至内容下
http://www.getsidekick.com/。我不知道问题可能出在哪里(也许是因为他们没有扩展.html
?例如http://www.getsidekick.com/blog/ultradian-rhythm-pomodoro-technique) 并且我还没有在手册或官方论坛上找到可行的解决方案。
另外,我已经知道如何使用wget
,但我想用 完成同样的事情httrack
。那么,有没有标准的方法来做到这一点?
答案1
它跟踪页面上的每个链接,并且有一个返回顶层的链接。
尝试使用wget
递归和无父选项。
wget -r --no-parent http://www.getsidekick.com/blog