使用 wget 下载整个网站时出现问题

使用 wget 下载整个网站时出现问题

wget正如手册页中所述:

下载单个页面及其所有必需内容(即使它们存在于不同的网站上),并确保所有内容在本地正确显示,除了 -p 之外,作者还喜欢使用一些选项:

wget -E -H -k -K -phttp://mysite.com/directory

我明白,如果我想完全下载我的网站,我必须添加-r参数。但同时使用-r-H选项会下载所有可从http://mysite.com/directory。 任何想法?

答案1

如果您想使用wget,您可以使用镜像设置来制作网站的离线副本,尽管有些网站可能会使用 robots.txt 设置来阻止自动蜘蛛抓取。我一直遇到一些问题wget(请参阅下面的其他建议),但以下命令确实适用于许多网站。但是,意识到的添加开关-H允许它访问其他网站上的所有链接并保存这些链接。如果不需要,显然可以删除此命令开关。

 wget --wait 1 -x -H -mk http://site.to.mirror/

命令允许请求wait之间有一些间隙,wget's这样站点就不会不堪重负,命令-x开关指定站点的目录结构应完全镜像到您的主文件夹中的文件夹中。开关-m显然代表镜像模式,允许wget通过站点进行递归下载;-k开关意味着下载后引用的文件将是您主文件夹中镜像目录中的文件,而不是站点本身的文件。

之后man wget,也许最好的命令列表和详细解释wget这里

如果wget失败,并且您无法获取所需的内容,我应该尝试命令行程序httrack或其 Web 界面webhttrack,它们在存储库中可用。这个程序有很多选项,但它比更适合下载整个网站或网站的部分内容wgetWebhttrack它为您提供了一个下载网站的向导(它会在您的浏览器中打开),如下面的屏幕截图所示。

追踪

答案2

我已经有一段时间没有用过wget这个目的了:

我相信我已经成功地举起了- m旗帜。

wget -mk http://site.com/directory

这可能不会让你得到一切 - 但它会让你接近一切。

(参考):这一页

相关内容